Vor­trag

Ein un­schar­fer Such­al­go­rith­mus für Tran­skrip­tio­nen von ara­bi­schen Orts­na­men

Raum HZ6

Mag­da­le­na Scherl

Hoch­schu­le Mainz - Uni­ver­si­ty of Ap­p­lied Sci­en­ces, Deutsch­land

Mar­tin Unold

Hoch­schu­le Mainz - Uni­ver­si­ty of Ap­p­lied Sci­en­ces, Deutsch­land

Timo Hom­burg

Hoch­schu­le Mainz - Uni­ver­si­ty of Ap­p­lied Sci­en­ces, Deutsch­land

Di­gi­ta­le Orts­ver­zeich­nis­se (Ga­zet­teers) be­inhal­ten In­for­ma­tio­nen über Orte sowie deren geo­gra­phi­sche Lage. Eine der grund­le­gends­ten Auf­ga­ben im Um­gang mit sol­chen Orts­ver­zeich­nis­sen ist die Suche nach Orts­na­men. Diese Suche kann sehr schwie­rig sein für Orts­na­men, die in ver­schie­de­nen Trans­li­te­ra­ti­ons- oder Tran­skrip­ti­ons­va­ri­an­ten vor­lie­gen, wie es oft bei ara­bi­schen Orts­na­men der Fall ist. In die­sen Fäl­len reicht eine reine Voll­text­su­che nicht aus. Hier kön­nen un­schar­fe String-Matching-Al­go­rith­men eine bes­se­re Tref­fer­quo­te für Su­chen er­rei­chen.

In die­sem Vor­trag prä­sen­tie­ren wir einen auf einer ge­wich­te­ten Le­vensht­ein­dis­tanz auf­bau­en­den Al­go­rith­mus für ara­bi­sche Trans­li­te­ra­tio­nen, der feh­ler­to­le­rant und gleich­zei­tig prä­zi­se genug ist, um das Auf­fin­den von Trans­li­te­ra­ti­ons­va­ri­an­ten zu er­mög­li­chen. Wir tes­te­ten die­sen Al­go­rith­mus auf einem ara­bi­schen Kor­pus und die Über­trag­bar­keit des Al­go­rith­mus auf su­me­ri­schen Keil­schrift­tex­ten, die ähn­li­che Trans­li­te­ra­ti­ons­am­bi­gui­tä­ten auf­wei­sen. Unser Al­go­rith­mus kann ab­hän­gig vom ge­ge­be­nen Wör­ter­buch To­pony­me mit einer Prä­zi­si­on von 90-95% und somit einer Ver­bes­se­rung von 9-27 Pro­zent­punk­ten zur nor­ma­len Le­vensht­ein­dis­tanz er­rei­chen.

Diese Vi­sua­li­sie­rung ba­siert auf der Ein­rei­chung Ein un­schar­fer Such­al­go­rith­mus für Tran­skrip­tio­nen von ara­bi­schen Orts­na­men und setzt sich aus Wer­ten für Flesch-Rea­ding-Ea­se (43) und Sen­ti­men­t­ana­ly­se (55) zu­sam­men.