Poster

Eine Basis-Architektur für den Zugriff auf multimodale Korpora gesprochener Sprache

Josip Batinic

Institut für Deutsche Sprache, Mannheim, Deutschland

Elena Frick

Institut für Deutsche Sprache, Mannheim, Deutschland

Joachim Gasch

Institut für Deutsche Sprache, Mannheim, Deutschland

Thomas Schmidt

Institut für Deutsche Sprache, Mannheim, Deutschland

Wir präsentieren Konzept und prototypische Implementierung einer Basis-Architektur für den Zugriff auf multimodale Korpora gesprochener Sprache (Audio-/Videodaten, Metadaten, Transkripte, Annotationen), wie sie im Projekt ZuMult („Zugänge zu multimodalen Korpora gesprochener Sprache – Vernetzung und zielgruppenspezifische Ausdifferenzierung“) entwickelt werden. Ausgehend von einer vergleichenden Analyse vorhandener Plattformen und einer Bestandsaufnahme existierender Standards im Bereich multimedialer Daten wird eine Dreiebenen-Lösung entwickelt, die auf etablierte (De Facto-)Standards aufbaut und anschlussfähig an existierende Lösungen ist. Damit wird eine transferfähige Basis für einen flexiblen Zugriff auf multimodale Korpora geschaffen.

Kern der Architektur ist zum einen eine objektorientierte Modellierung der Korpus-Bestandteile und ihrer Beziehungen zueinander. Für deren digitale Repräsentation werden Standards verwendet. Zum anderen beinhaltet die Architektur ein vereinheitlichtes Konzept zur Query auf Transkriptions- und Annotationsdaten. Dieses baut auf Überlegungen zu einer „Corpus Query Lingua Franca“ auf. Beide Komponenten werden technisch als „Locators“ bzw. „Filters“ in einer REST API umgesetzt.

Diese Visualisierung basiert auf der Einreichung Eine Basis-Architektur für den Zugriff auf multimodale Korpora gesprochener Sprache und setzt sich aus Werten für Flesch-Reading-Ease (14) und Sentimentanalyse (57) zusammen.