Raum HZ6
Digitale Ortsverzeichnisse (Gazetteers) beinhalten Informationen über Orte sowie deren geographische Lage. Eine der grundlegendsten Aufgaben im Umgang mit solchen Ortsverzeichnissen ist die Suche nach Ortsnamen. Diese Suche kann sehr schwierig sein für Ortsnamen, die in verschiedenen Transliterations- oder Transkriptionsvarianten vorliegen, wie es oft bei arabischen Ortsnamen der Fall ist. In diesen Fällen reicht eine reine Volltextsuche nicht aus. Hier können unscharfe String-Matching-Algorithmen eine bessere Trefferquote für Suchen erreichen.
In diesem Vortrag präsentieren wir einen auf einer gewichteten Levenshteindistanz aufbauenden Algorithmus für arabische Transliterationen, der fehlertolerant und gleichzeitig präzise genug ist, um das Auffinden von Transliterationsvarianten zu ermöglichen. Wir testeten diesen Algorithmus auf einem arabischen Korpus und die Übertragbarkeit des Algorithmus auf sumerischen Keilschrifttexten, die ähnliche Transliterationsambiguitäten aufweisen. Unser Algorithmus kann abhängig vom gegebenen Wörterbuch Toponyme mit einer Präzision von 90-95% und somit einer Verbesserung von 9-27 Prozentpunkten zur normalen Levenshteindistanz erreichen.
Diese Visualisierung basiert auf der Einreichung
Ein unscharfer Suchalgorithmus für Transkriptionen von arabischen Ortsnamen und setzt sich aus Werten für Flesch-Reading-Ease (43) und Sentimentanalyse (55) zusammen.