Texterkennung mit Ocropy – Vom Bild zum Text

Raum P6

Uhrzeit 9:00 - 10:30

Robert Nasarek

Martin-Luther-Universität Halle-Wittenberg, Deutschland

Andreas Müller

Martin-Luther-Universität Halle-Wittenberg, Deutschland

Die optische Zeichenerkennung (engl. Optical Character Recognition – OCR) von historischen Texten weißt oftmals niedrige Erkennungsraten auf. Mit einem gekonnten Preprozessing und ocropy (auch OCRopus), einem modular aufgebauten Kommandozeilenprogramm auf Basis eines neuronalen Netzes, ist es möglich, deutlich bessere Ergebnisse zu erzielen. Ocropy ist in Python geschrieben und enthält u.a. Module zur Binarisierung (Erzeugung einer Rastergrafik), Segmentierung (Dokumentaufspaltung in Zeilen), der Korrektur fehlerhafter Erkennungstexte, dem Training neuer Zeichen und natürlich zur Erkennung von Dokumenten. Als kommandozeilenbasiertes Programm für die Linux-Console setzt ocropy die Einstiegshürde für viele interessierte Nutzer*innen erhöht an.

Im Workshop werden diese Hürden abgebaut, indem er alle Schritte „from zero to recognised textfile“ nachvollziehbar und zum Mitmachen aufzeigt. Den Teilnehmer*innen des Workshops werden alle benötigten Informationen zur Verfügung gestellt und Handgriffe gezeigt, um selbstständig Frakturschriften (oder andere Schriftarten) durch ocropy erkennen zu lassen.

Achtung: Workshopteilnehmer*innen müssen ein Notebook mitbringen, auf dem sie über Administratorenrechte verfügen.

Diese Visualisierung basiert auf der Einreichung Texterkennung mit Ocropy – Vom Bild zum Text und setzt sich aus Werten für Flesch-Reading-Ease (61) und Sentimentanalyse (55) zusammen.