Allgemein

Dokument-Erkennung

Dokumentenerkennung mit KI Technologie

Mehr als optische Zeichenerkennung: Dokumenterkennung

Wie Inhalte in Dokumenten erkannt, erfasst und extrahiert werden.

Mit Beginn der 80er Jahre machten leistungsfähige Rechner eine weitergehende Extraktion von Information aus Dokumenten möglich. Es folgte ein wahrer Forschungshype im Bereich der Dokumenterkennung. Neben Handschriften-Erkennung und Verifikation von Unterschriften umfasst die Dokument-Erkennung das Identifizieren nicht lateinischer Alphabete und Font-Erkennung, Extraktion der physischen und logischen Struktur sowie die Erkennung von Tabellen, technischen Zeichnungen und Plänen, mathematischen Formeln und Musiknoten.

Intelligente Software zur Dokumenterkennung versteht auch unstrukturierte Dokumente.

Die optische Dokumenterkennung ist ein intensiv beforschter Bereich. Das gilt insbesondere für die Zeichenerkennung (OCR) und grundlegende Techniken der physischen Strukturerkennung (Segmentierung). Die Erkennung der logischen Dokumentstruktur findet zunehmend Beachtung. Aufgrund der hohen Komplexität des Erkennungsproblems kommen Ansätze der Künstlichen Intelligenz (KI) zur Anwendung: so z.B. semantische Netzwerke und Fuzzy-Logic.

Wie erfolgt Dokumenterkennung in digitalen Poststellen (Eingangspostverarbeitung)?

Eine Sonderform der Dokumenterkennung ergibt sich beispielsweise bei der automatischen Verarbeitung des Posteinganges großer Unternehmen. Eine große Herausforderung stellen die vielfältigen Strukturen von Dokumentenarten und –formen dar. Die moderne digitale Poststelle hat die zentrale Aufgabe, die kostspieligen Tätigkeiten des Sortierens und Verarbeitens von Dokumenten auf ein Minimum zu reduzieren.

Folgende Dokument-Strukturen werden im Allgemeinen unterschieden:

Strukturierte Dokumente
sind eindeutig definierte Dokumente (wie z.B. Leistungsanträge, Antragsformulare); es ist klar festgelegt, in welchem Feld die benötigten Vorgangsinformationen zu finden sind. Bei der digitalen Dokumenten-Verarbeitung kommen spezielle Software-Module zum Einsatz, die auf die Struktur der Dokumente konfiguriert werden und definierte Datenfelder automatisch extrahieren.
Intelligente Poststellenlösungen können Anträge und Formulare anhand eines definierten, auf visueller Erkennung fixierten Prozesses “erlernen”, ohne komplexe Regelwerke zu entwickeln.

Halbstrukturierte Dokumente
sind in der Regel ähnlich aufgebaut wie strukturierte Dokumente, können aber ganz unterschiedliche Besonderheiten in Bezug auf die Position benötigter Daten aufweisen. Typische Beispiele sind Eingangsrechnungen, Rezeptvorlagen oder Bestellungen.
Moderne Poststellenlösungen sind in der Lage, anhand des “Kontext-Bezugs” der Inhalte halbstrukturierter Dokumente benötigte Daten (sog. “Tags”) zu erkennen und zu extrahieren.

Unstrukturierte Dokumente
folgen keiner Vorlage. Sie werden allgemein als “Königsdisziplin” der Posteingangsverarbeitung bezeichnet. Typische Beispiele sind Briefe und E-Mails. In klassischen Posteingangslösungen erfolgt ihre Bearbeitung manuell durch Sachbearbeiter und Kundenbetreuer, weil die Erstellung und Pflege von Regelwerken entweder unwirtschaftlich oder zu fehleranfällig ist.

In modernen Poststellenlösungen werden unstrukturierte Dokumente einer Kontext-bezogenen Inhaltsanalyse auf Basis von KI-Methoden unterzogen. Lernfähige Lösungen beziehen das beobachtete Verhalten von Sachbearbeitern dynamisch in die automatisierte Verarbeitung ein. Der Wirkungsgrad wird maßgeblich verbessert.

Dreh- und Angelpunkt einer intelligenten Postverarbeitungs-Technologie ist deshalb die Fähigkeit den Inhalt unstrukturierter Dokumente zu verstehen und automatisch weiter zu verarbeiten.

Nach welchen Schemata arbeiten moderne Posteingangslösungen?

Grundsätzlich folgt die Bearbeitung der unterschiedlichen Dokumente einem logischen und zum Teil automatisch unterstützten Prozessschema:

Prozess zur Dokumentenverarbeitung von intelligenten Softwarelösungen

  • Das Eingangsdokument wird mittels OCR-Technologie (Optical Character Recognition) soweit möglich als Text- oder Bilddokument erfasst und abhängig von der Dokumentenart einer Klassifikation unterzogen.
  • Danach erfolgt die Extraktion benötigter Vorgangsinformationen. Hierbei gilt in der Regel: je höher der Grad der Dokumentenstruktur, umso höher die Extraktions-Güte. Dennoch stellt die Extraktions-Qualität die größte Herausforderung für Anbieter von Posteingangssystemen dar. Insbesondere dann, wenn Daten automatisch an Drittsysteme auszulagern sind.
  • Bei der nachfolgenden Validierung werden jene Dokumente, deren automatische Erfassung in der Extraktion nicht eindeutig vollzogen wurde, manuell nachbearbeitet.
  • Abschließend wird der zugrunde liegende Geschäftsvorfall in ein Bestandssystem übertragen und/oder ein Organisationsprozess ausgelöst (Export).