Workshop

Vom gedruckten Werk zu elektronischem Volltext als Forschungsgrundlage

Raum P12

Uhrzeit 14:00 - 15:30

Elisa Herrmann

Herzog August Bibliothek Wolfenbüttel, Deutschland

Volker Hartmann

Steinbuch Centre for Computing & Karlsruher Institut für Technologie (KIT), Deutschland

Matthias Boenig

Berlin-Brandenburgische Akademie der Wissenschaften, Deutschland

Die „Koordinierte Förderinitiative zur Weiterentwicklung von Verfahren der Optical Character Recognition“ (kurz OCR-D), arbeitet seit 2015 an der Optimierung der automatischen Texterkennung insbesondere für historische Drucke. Nach einer Bedarfsanalyse werden seit Anfang 2018 in acht Modulprojekten Softwarelösungen entwickelt, die ab Sommer 2019 Open Source zur Verfügung stehen. Kultureinrichtungen wie Bibliotheken lassen seit mehreren Jahren ihre Bestände digitalisieren und zum Teil auch per OCR prozessieren.

Der Workshop dient zum einen dazu, den OCR-D-Workflow samt der dazu entwickelten Software vorzustellen, zum anderen ergibt sich die Möglichkeit, mit der Community zu diskutieren, wie die OCR-D-Lösungen in zukünftige Forschungsprozesse eingebracht werden können.

Diese Visualisierung basiert auf der Einreichung Vom gedruckten Werk zu elektronischem Volltext als Forschungsgrundlage und setzt sich aus Werten für Flesch-Reading-Ease (49) und Sentimentanalyse (50) zusammen.