Ein unscharfer Suchalgorithmus für Transkriptionen von arabischen Ortsnamen

Raum HZ6

Magdalena Scherl

Hochschule Mainz - University of Applied Sciences, Deutschland

Martin Unold

Hochschule Mainz - University of Applied Sciences, Deutschland

Timo Homburg

Hochschule Mainz - University of Applied Sciences, Deutschland

Digitale Ortsverzeichnisse (Gazetteers) beinhalten Informationen über Orte sowie deren geographische Lage. Eine der grundlegendsten Aufgaben im Umgang mit solchen Ortsverzeichnissen ist die Suche nach Ortsnamen. Diese Suche kann sehr schwierig sein für Ortsnamen, die in verschiedenen Transliterations- oder Transkriptionsvarianten vorliegen, wie es oft bei arabischen Ortsnamen der Fall ist. In diesen Fällen reicht eine reine Volltextsuche nicht aus. Hier können unscharfe String-Matching-Algorithmen eine bessere Trefferquote für Suchen erreichen.

In diesem Vortrag präsentieren wir einen auf einer gewichteten Levenshteindistanz aufbauenden Algorithmus für arabische Transliterationen, der fehlertolerant und gleichzeitig präzise genug ist, um das Auffinden von Transliterationsvarianten zu ermöglichen. Wir testeten diesen Algorithmus auf einem arabischen Korpus und die Übertragbarkeit des Algorithmus auf sumerischen Keilschrifttexten, die ähnliche Transliterationsambiguitäten aufweisen. Unser Algorithmus kann abhängig vom gegebenen Wörterbuch Toponyme mit einer Präzision von 90-95% und somit einer Verbesserung von 9-27 Prozentpunkten zur normalen Levenshteindistanz erreichen.

Diese Visualisierung basiert auf der Einreichung Ein unscharfer Suchalgorithmus für Transkriptionen von arabischen Ortsnamen und setzt sich aus Werten für Flesch-Reading-Ease (43) und Sentimentanalyse (55) zusammen.