Bereiche elektronischer Texterkennung: OCR und ICR
Elektronische Texterkennung wird synonym mit OCR und ICR verwendet.
Optical Character Recognition (OCR) beschreibt den Prozess der optischen Zeichenerkennung aus erfassten Rastergrafiken mit Hilfe eines Mustervergleiches. Als „OCR“ werden demnach Verfahren der maschinellen Datenerfassung bezeichnet, bei der handschriftliche oder maschinengeschriebene Zeichen (Buchstaben, Ziffern, Sonderzeichen) aber auch Strichmarkierungen (Barcodes) mit hoher Geschwindigkeit gelesen werden.
Die Verfahren der „OCR“ liefern keine absoluten Ergebnisse, sondern sie liefern Wahrscheinlichkeiten für die Identifikation bestimmter Zeichen. Diese Wahrscheinlichkeiten werden durch Verfahren der Texterkennung – zu diesen Verfahren gehört u.a. die „ICR“ – bestätigt oder verworfen. Neben reinen Druckschriftarten werden auch Handschriften auf erfassten Dokumententrägern erkannt.
Intelligent Character Recognition (ICR) überprüft die Plausibilität von OCR-Ergebnissen mit Hilfe vorgegebener Regeln. ICR arbeitet dabei auf linguistischen Grundlagen und beachtet in der Regel das Umfeld des jeweiligen Buchstaben. Moderne Texterkennung arbeitet also über die OCR hinaus und wird durch Methoden der sog. „Kontext-Analyse“ (ICR) ergänzt, um das Ergebnis zu verfeinern.
Wie die durch OCR-/ICR-Verfahren erfassten Daten mittels Texterkennung zu Informationen werden
OCR und ICR stehen synonym für die „elektronische Texterkennung“. Tatsächlich bezeichnen sie aber unterschiedliche Formen und Bereiche der Texterkennung:
- Erfassen und Interpretieren von Markierungen in vorgesehenen Feldern (Formulare)
- Erfassen von Barcodes
- Einlesen von Text durch Klarschriftleser
Welche OCR-/ICR-Lösungen werden für die Verarbeitung von Massendaten verwendet?
Die Enterprise-OCR-Lösungen von Anbietern wie Abbyy, Omnipage oder Tesseract liefern abhängig von den jeweils zu erfassenden Dokumentarten und –formen qualitativ unterschiedliche OCR-Ergebnisse. Der Wirkungsgrad bleibt also auf spezielle Anwendungsformen begrenzt. Universelle Anwendungslogik wie die „virtuelle OCR“ innerhalb der CONTEX Engine von ITyX steigert die Effektivität einzelner OCR-Lösungen signifikant: die Ergebnisse mehrerer OCR-Komponenten werden kombiniert. Auf Basis eines patentierten Berechnungsverfahrens werden die Schwächen einzelner OCR-Lösungen erkannt und eliminiert. Die Erkennungsqualität kann auf diese Weise erheblich gesteigert werden.
Downloads
Video
Kontakt
Haben Sie Fragen oder benötigen Sie weitere Informationen?
Live-Kontakt starten
Informationsmappe anfordern
RESPONSE MANAGEMENT
E-Mails, Tweets, Facebook
automatisiert beantworten.
Mediatrix RESPONSE
DIGITALER POSTEINGANG
Briefe, Formulare, DE-Mails
automatisiert verarbeiten.
Mediatrix MAILROOM
PROACTIVE CHAT
Proaktiv Kontakt zu
Webbesuchern aufbauen
Mediatrix WEB SCOUT
SOCIAL MEDIA
Kundenwert-orientierte
Vorgangsbearbeitung
Mediatrix COMCRAWLER
INTERNET SELF SERVICE
Triviale Fragen suggestiv
beantworten – Kontakte vermeiden
Mediatrix SELF SERVICE
KNOWLEDGE MANAGEMENT
Dynamisch Wissen generieren
und situativ verfügbar machen
Mediatrix KNOWLEDGE
DATENERFASSUNG 2.0
Daten automatisch extrahieren
und in Drittsystemen erfassen
Mediatrix VIRTUAL AGENT
