Dokumentenmanagement Blog

Texterkennung verbessern mit dem agorum® core OCR-Tuner

[fa icon="calendar"] 18.01.2017 08:59:12 / by Birgit Werthebach

Texterkennung-verbessern-mit-dem-agorum-core-OCR-Tuner.jpg

 

Wer kennt das nicht? Ein Dokument ist im Papieroriginal schon schlecht lesbar und nachdem es durch die OCR-Engine gelaufen ist, sehen Sie gar nichts mehr. Wenn es sich dabei um eine Ausnahme handelt, ist es sicherlich am einfachsten, das Dokument schnell manuell zu erfassen. Geht es jedoch um einen regelmäßig im Unternehmen vorkommenden Dokumententyp, ist guter Rat oft teuer - es sei denn, Sie arbeiten mit der agorum® core OCR-Engine. Die hat nämlich für solche Fälle eine eingebaute "Lesebrille", den OCR-Tuner. Mit diesem einfach zu bedienenden Werkzeug können Sie mit wenigen Klicks Ihre automatische Texterkennung verbessern. 

 

Texterkennung verbessern durch bedarfsgerechtes Tuning

1. Kontrast erhöhen, Dokumente heller oder dunkler machen

In vielen Branchen sind auch heute noch Belege mit x Durchschlägen notwendig und an der Tagesordnung. Deswegen werden die oft totgesagten Nadeldrucker vermutlich niemals aussterben, aber das ist ein anderes Thema. Fakt ist, dass auch bei guten Nadeldruckern der dritte, vierte oder fünfte Durchschlag so schwach ist, dass selbst die leistungsfähige agorum® core OCR-Engine kaum noch etwas erkennt. Hier genügt es oft, im OCR-Tuner den Kontrast zu erhöhen und/oder das Dokument dunkler zu machen, so dass der Druck besser lesbar wird. 

 

2.  Schmutz und Flecken entfernen mit der Despeckle-Funktion

Dokumente, die aus der Produktion oder der Werkstatt kommen, sind gerne mal mit Fingerabdrücken, Ölflecken oder ähnlichen Störern verziert. Weil der Scanner nicht unterscheiden kann, was zum Dokument gehört und was nicht, werden diese Flecken mitgescannt - sehr zur Verwirrung der OCR-Engine. Die ist ja auch nicht schlauer als der Scanner und bemüht sich oft vergebens, die wesentlichen Daten zu erkennen. 

Ein anderes Beispiel für Flecken, die den OCR irritieren, sind Kopierschutz-Artefakte, die häufig auf offiziellen Dokumenten wie Ausweisen, Pässen oder Fahrzeugscheinen zu finden sind. Bei dem hier eingescannten Fahrzeugschein muss sich selbst das menschliche Auge sehr anstrengen, um die wesentlichen Inhalte von den darüberliegenden Kopierschutz-Artefakten zu trennen.  

agorum-core-ocr-tuner-ohne-tuning.jpg

 

Mit dem OCR-Tuner werden die Artefakte schnell und einfach entfernt. Wählen Sie die Option "Despeckle", also "Flecken entfernen" und schon wird der Inhalt des Fahrzeugscheins auch für die OCR-Engine lesbar. Das Ergebnis sieht dann so aus:

 

agorum-core-ocr-tuner-mit-tuning.jpg

 

 

3. Horizontale und vertikale Linien entfernen

Auf Karopapier eingescannte Dokumente oder Tabellen mit sehr engen Zellen eignen sich ebenfalls perfekt dazu, die OCR-Engine zur Verzweiflung zu bringen. Sie versucht nämlich, sämtliche vertikalen und horizontalen Linien als Zeichen zu interpretieren und liefert somit ein falsches Ergebnis bei der Texterkennung. Deswegen gibt es im OCR-Tuner die Möglichkeit, horizontale und vertikale Linien entfernen zu lassen. Je nach Dicke der Linien lässt sich die Empfindlichkeit der Entfernungsfunktion (Minimal- und Maximalwert) einstellen.

 

4. Weitere Tuning-Möglichkeiten 

Wie Sie auf dem Screenshot im Menü links sehen können, gibt es noch weitere Möglichkeiten, ein Dokument zu tunen. Weil die drei oben beschriebenen Varianten zum Texterkennung verbessern aber sicherlich am häufigsten vorkommen, möchte ich auf die weiteren Funktionen nicht mehr im Einzelnen eingehen. Nur eine Anmerkung noch: Die Schräglagenkorrektur (Deskew) ist im OCR-Tuner zwar möglich, aber normalerweise nicht mehr nötig, denn sie wird in der Praxis bereits von der agorum® core OCR-Engine selbst automatisch durchgeführt.

 

Tuning-Parameter speichern und eigenen Scaneingangsordner definieren

Mit gezieltem Tuning lässt sich aber nicht nur die Texterkennung verbessern. Die wahre Stärke des OCR-Tuners liegt darin, dass Sie das Tuning nur einmal machen und anschließend auf alle anderen Dokumente dieses Typs anwenden können. Wenn Sie beispielsweise in der Fuhrparkverwaltung oder in einer Autovermietung arbeiten und täglich Fahrzeugscheine einscannen, brauchen Sie den Dokumententyp "Fahrzeugschein" nur beim ersten Mal zu tunen. Dann speichern Sie alle Parameter und definieren damit einen eigenen Scaneingangsordner, in den Sie in Zukunft alle Fahrzeugscheine scannen. Die agorum® core OCR-Engine wendet die Parameter automatisch bei jedem Dokument an, das in diesen Eingangsordner gescannt wird. Sie erkennt somit die Fahrzeugscheine wieder automatisch und kann sie erfassen und für die Volltextsuche verschlagworten. 

 

Fazit:

Mit dem eingebauten OCR-Tuner setzen Sie Ihrer agorum® core OCR-Engine quasi die Lesebrille auf. Sie können schnell, einfach und nachhaltig die Texterkennung verbessern, so dass auch schwierig auszulesende Dokumente automatisch richtig ausgelesen werden können.

 

Wenn Sie sehen möchten, wie der OCR-Tuner in der Praxis funktioniert, dann lassen Sie sich diese Funktion doch einfach von einem unserer Kundenberater zeigen. Vereinbaren Sie einen Termin für Ihre persönliche Online-Demo: 

Ihr DMS live erleben  

 

Weitere interessante Blogbeiträge zur automatischen Texterfassung mit Ihrem DMS:

 

Themen: Dokumentenmanagement, DMS mit agorum core




Kommentare

Wir freuen uns auf Ihr Feedback!