Allgemein

Texterkennung

Texterkennung - OCR / ICR - mit smarter Software

Bereiche elektronischer Texterkennung: OCR und ICR

Elektronische Texterkennung wird synonym mit OCR und ICR verwendet. 

Optical Character Recognition (OCR) beschreibt den Prozess der optischen Zeichenerkennung aus erfassten Rastergrafiken mit Hilfe eines Mustervergleiches. Als OCR werden demnach Verfahren der maschinellen Datenerfassung bezeichnet, bei der handschriftliche oder maschinengeschriebene Zeichen (Buchstaben, Ziffern, Sonderzeichen) aber auch Strichmarkierungen (Barcodes) mit hoher Geschwindigkeit gelesen werden.

Die Verfahren der OCR liefern keine absoluten Ergebnisse, sondern sie liefern Wahrscheinlichkeiten für die Identifikation bestimmter Zeichen. Diese Wahrscheinlichkeiten werden durch Verfahren der Texterkennung – zu diesen Verfahren gehört u.a. die ICR – bestätigt oder verworfen. Neben reinen Druckschriftarten werden auch Handschriften auf erfassten Dokumententrägern erkannt.

Intelligent Character Recognition (ICR) überprüft die Plausibilität von OCR-Ergebnissen mit Hilfe vorgegebener Regeln. ICR arbeitet dabei auf linguistischen Grundlagen und beachtet in der Regel das Umfeld des jeweiligen Buchstaben. Moderne Texterkennung arbeitet also über die OCR hinaus und wird durch Methoden der sog. Kontext-Analyse (ICR) ergänzt, um das Ergebnis zu verfeinern.

Wie die durch OCR-/ICR-Verfahren erfassten Daten mittels Texterkennung zu Informationen werden

OCR und ICR stehen synonym für die “elektronische Texterkennung” (Neudeutsch auch content analytics). Tatsächlich bezeichnen sie aber unterschiedliche Formen und Bereiche der Texterkennung:

  • Erfassen und Interpretieren von Markierungen in vorgesehenen Feldern (Formulare)
  • Erfassen von Barcodes
  • Einlesen von Text durch Klarschriftleser

Welche OCR-/ICR-Lösungen werden für die Verarbeitung von Massendaten verwendet?

Die Enterprise-OCR-Lösungen von Anbietern wie Abbyy, Omnipage oder Tesseract liefern abhängig von den jeweils zu erfassenden Dokumentarten und –formen qualitativ unterschiedliche OCR-Ergebnisse. Der Wirkungsgrad bleibt also auf spezielle Anwendungsformen begrenzt.

Universelle Anwendungslogik wie die “virtuelle OCR” innerhalb der AI PLATFORM von ITyX steigert die Effektivität einzelner OCR-Lösungen signifikant: die Ergebnisse mehrerer OCR-Komponenten werden kombiniert. Auf Basis eines patentierten Berechnungsverfahrens werden die Schwächen einzelner OCR-Lösungen erkannt und eliminiert. Die Erkennungsqualität kann auf diese Weise erheblich gesteigert werden.

Virtuelle OCR verbessert Erkennungsraten von Texten

Virtueller OCR-Prozess eliminiert Schwächen verschiedener OCR-Quellen. Die Folge: deutliche Verbesserung der Erkennungsrate.