Allgemein

Dokument-Erfassung

Dokument-Erfassung - smartes Capturing

Capturing: Warum der Grad der Dokumentenerfassung für die Profitabilität digitaler Poststellen entscheidend ist

Am Anfang jedes DMS- bzw. ECM-Prozesses steht das Capturing oder die Dokumenterfassung, die Aufbereitung und Verarbeitung jeder Art von Information. Es macht sich bezahlt, die Dokumenten- bzw. Informationserfassung als integralen Bestandteil bestehender Geschäftsprozesse zu verstehen. Ausgereifte Capture-Workflow-Technologie nutzt enorme Effizienzpotentiale bei der Erfassung und ist Bestandteil jeder digitalen Posteingangslösung.

Dokumenterfassung oder Capturing: KI-basierte Systeme erkennen Inhalte

Capturing unterscheidet mehrere Stufen und Techniken: vom einfachen optischen Einlesen mit einem Scanner bis zur komplexen Aufbereitung durch automatisches Indexieren und Klassifizieren mittels intelligenter Leseprogramme. Die Dokumenterfassungs-Komponenten werden auch häufig als Input-Komponenten zusammengefasst und als Input Management bezeichnet.

Ziel aller Capture-Komponenten ist es, die erfassten Dokumente und Informationen zur Weiterverarbeitung oder Archivierung bereitzustellen.

Capture-Komponenten

Scannen manuell erzeugter Informationen
Beim Scannen, so bezeichnet man die Erfassung papiergebundener Dokumente und Filmaufnahmen, sind alle Formen von Informationen zu finden: E-Mails, Papierdokumente, Vordrucke, Multimedia-Objekte, Mikrofilm, digitalisierte Sprach- oder Filmaufnahmen.

Maschinell erzeugte und automatisch erfasste Informationen
Bei der teilautomatischen oder automatischen Erfassung können EDI- oder XML-Dokumente, kaufmännische und ERP-Anwendungen oder bestehende Fachanwendungssysteme die Quelle für die Erfassung sein. Die automatische Übernahme von Daten erfolgt in der Regel im sogenannten COLD-Verfahren.

Techniken zur Be- und Verarbeitung erfasster Informationen
Zur Verarbeitung von gescannten Faksimiles (Bildverarbeitung) werden verschiedene Erkennungstechniken (Recognition, Mustererkennung) verwendet:

  • Texterkennung (Optical Character Recognition, OCR)
    Hierbei werden die Bildinformationen in maschinenlesbare Zeichen umgesetzt. OCR wird für Maschinenschrift eingesetzt.
  • Handschrifterkennung (Handprint Character Recognition, HCR)
    HCR ist eine Weiterentwicklung von OCR, die beim Auslesen von definierten Feldinhalten sehr sichere Ergebnisse liefert, jedoch bei Fließtexten immer noch nicht zufriedenstellend arbeitet.
  • ICR (Intelligent Character Recognition)
    ICR ist eine Weiterentwicklung von OCR und HCR, die die Qualität der ausgelesenen Ergebnisse durch Vergleiche, logische Zusammenhänge, Abgleich mit Referenzlisten oder Prüftabellen verbessert.
  • Optical Mark Recognition (OMR)
    OMR, z. B. für Strichcode, liest mit hoher Sicherheit spezielle Markierungen in vordefinierten Feldern aus und hat sich bei Fragenbogenaktionen und anderen Vordrucken bewährt.
  • Barcode
    Mittels Barcode können Informationen automatisiert erkannt und zugeordnet werden.

Bildbearbeitung
Bildbearbeitungstechniken von Document Imaging dienen nicht nur der Anzeige von gescannten Bildern, sondern ermöglichen auch die Verbesserung der Lesbarkeit für die Erfassung.

Formularverarbeitung
Bei der Erfassung von Formularen werden heute noch zwei Gruppen von Techniken unterschieden, obwohl der Informationsinhalt und der Charakter der Dokumente gleich sein kann:

  • Forms Processing (Vordruckverarbeitung) kennzeichnet die Erfassung von industriell oder individuell gedruckten Vordrucken mittels Scannen. Gut gestaltete Vordrucke ermöglichen eine weitgehend automatische Verarbeitung.
  • E-Forms / Web-Forms (Verarbeitung elektronischer Formulare) können weitgehend automatisch erfasst werden, wenn Inhalt, Struktur, Layout und Logik dem Erfassungssystem bekannt sind.

COLD/ERM (Computer Output on LaserDisk)
sind Verfahren zur automatisierten Verarbeitung von strukturierten Eingangsdateien. Obwohl das Medium LaserDisk seit Jahren nicht mehr auf dem Markt ist, hat sich der Begriff gehalten. ERM steht für Enterprise Report Management. In beiden Fällen geht es darum, angelieferte Ausgabedateien auf Basis vorhandener Strukturinformationen so aufzubereiten, dass sie unabhängig vom erzeugenden System indiziert und an eine Speicherkomponente wie eine dynamische Ablage oder ein Archiv übergeben werden können.

Komponenten zur inhaltlichen Erschließung erfasster Information
Für die Weiterleitung und inhaltliche Erschließung kommen in den Systemen weitere Indizierungs-, Routing- und Klassifikations-Komponenten hinzu, die die erfassten und digital vorliegenden Informationen aufbereiten und um beschreibende Merkmale ergänzen. Hierzu gehören:

  • Indexierung (Indizieren, Verschlagworten)
  • Kategorisierung (automatische Klassifikation)

Intelligente Dokumenterfassung automatisiert Backoffice und Kundenservice