Poster

Korrektur von fehlerhaften OCR Ergebnissen durch automatisches Alignment mit Texten eines Korpus

Markus Bald

Julius-Maximilians-Universität Würzburg, Deutschland

Vincenzo Damiani

Julius-Maximilians-Universität Würzburg, Deutschland

Holger Essler

Julius-Maximilians-Universität Würzburg, Deutschland

Björn Eyeselein

Julius-Maximilians-Universität Würzburg, Deutschland

Christian Raul

Julius-Maximilians-Universität Würzburg, Deutschland

Frank Puppe

Julius-Maximilians-Universität Würzburg, Deutschland

Eine attraktive Form der Nachkorrektur von fehlerhaften OCR-Ergebnissen basiert auf dem Alignment mit bereits transkribierten Vergleichstexten, sofern diese existieren. Dazu präsentieren wir einen zweistufigen Ansatz, der zunächst mittels einer fehlertoleranten N-Gramm-Suche zu einer Zeile Vergleichszeilen findet, die dann in einem interaktiven Editor nachbearbeitet werden können. Die Evaluationen zeigen, dass der Ansatz selbst bei einer OCR-Genauigkeit von nur 80% - 85% gute Ergebnisse liefert. Er kann damit Philologen bei der Transkription alter Drucke trotz mäßig guter OCR-Qualität viel Zeit sparen, wenn ähnliche, bereits anderweitig transkribierte Texte oder Textausschnitte verfügbar sind.

Diese Visualisierung basiert auf der Einreichung Korrektur von fehlerhaften OCR Ergebnissen durch automatisches Alignment mit Texten eines Korpus und setzt sich aus Werten für Flesch-Reading-Ease (54) und Sentimentanalyse (81) zusammen.