Hier ist eine Frage, die meiner Meinung nach mit Data Mining und einem ausgeklügelten Algorithmus gelöst werden könnte, aber ich weiß nicht genau, wie. Hinweise auf die zu verwendenden Datenquellen und den anzuwendenden Algorithmus sind willkommen.
Hintergrund: Ich bin ein rumänisch-ungarischer Staatsbürger, der ein Baby mit einem polnisch-ukrainischen Staatsbürger erwartet und uns noch nicht klar ist, in welchem Land wir uns niederlassen wollen. Wie Sie vielleicht erwarten können, ist die Wahl eines Vornamens von äußerster Wichtigkeit und eine heiße Debatte. Von meiner Seite bin ich immer noch traumatisiert von all dem Ärger, den ich durchmachen musste, als jemand meinen Namen falsch buchstabierte, als ich von einem Land in ein anderes zog. Wenn Sie zum Beispiel "Adrian" genannt würden, wären Sie in Rumänien gesegnet, nur um herauszufinden, dass Sie letztendlich "Adri e n" sind, handelt es sich um ein offizielles französisches Dokument. Deshalb muss ich nur dafür sorgen, dass der Name des Babys in einigen europäischen Ländern höchst unwahrscheinlich falsch geschrieben wird.
Problemstellung: In einer Reihe von Ländern, z. B. Frankreich, Deutschland, Schweden, Polen und Rumänien, finden Sie die Liste der Vornamen, die bei korrekter Aussprache von den Einheimischen wahrscheinlich nicht falsch geschrieben werden.
Formaler: Sei p (c, n) eine Funktion, die die Wahrscheinlichkeit zurückgibt, dass der Name n in Land c falsch geschrieben ist . Wenn C eine Menge von Ländern und p eine Wahrscheinlichkeit gegeben ist, finde N eine Menge von Vornamen, so dass
für alle n ∈ N und c ∈ C ist p (c, n) <p₀
Erste Überlegungen : Das Kernproblem ist die Implementierung von p (c, n) . Man könnte versuchen, es mit einer Heuristik anzunähern. Es ist klar, dass ein Name wahrscheinlich in zwei Fällen falsch geschrieben wird:
- Es wird in diesem Land wenig benutzt.
- Es ähnelt einem anderen Namen, der in diesem Land nicht selten verwendet wird.
Ich bin mir nicht sicher, wie ich das Internet, z. B. Wikipedia, nutzen könnte, um diese beiden Fragen effizient zu beantworten. Wie würde man nur ziemlich häufig verwendete Namen in einem Land auflisten? Wie würde man nach ähnlich geschriebenen suchen?
Antworten:
Es gibt einige Ansätze, die für einige Sprachen besser funktionieren als für andere. Beispielsweise wurde Soundex (und eine andere Beschreibung, die mir gefällt ) für die englische Aussprache von Namen entwickelt. Mit Soundex
Michael
wird M240. Dies hat mehrere Schritte:M
undichael
)M
undchl
) entferntc
-> 2l
-> 4Die Gruppierung der Konsonant Konvertierungen werden auf der Grundlage ihrer klangliche Ähnlichkeit -
B
,F
,P
undV
alle Karte1
.Und es gibt Variationen im Laufe der Zeit . Es ist besonders nützlich in der Genealogie, wo sich die Schreibweise eines Namens im Laufe der Zeit ändern kann, die Aussprache jedoch ähnlich bleibt.
Es gibt auch Ansätze wie die Übereinstimmungsbewertung, die von den Fluggesellschaften für Namen (und nicht für amerikanische Genealogie) entwickelt wurde.
Die Kodierung des Match-Rating-Ansatzes (MRA) lautet:
Michael
wirdMchl
undAnthony
wirdAnthny
)Die vollständige Spezifikation dazu finden Sie auf archive.org - beachten Sie, dass es "nicht klein" ist (das gedruckte Formular umfasst 214 Seiten).
Die Vergleiche haben einen Übereinstimmungsschwellenwert, der davon abhängt, wie lang der Text ist.
Es gibt auch andere phonetische Algorithmen .
Daher würde ich Sie ermutigen, entweder den Soundex so wie er ist, den Match-Rating-Ansatz so wie er ist, oder den Soundex basierend auf den rumänischen Konsonanten und den polnischen Konsonanten zu modifizieren .
Denken Sie daran , dass mit soundex werden die Konsonanten gruppiert (Polnisch,
m
,n
,ɲ
sind alle Nasalkonsonanten gruppiert werden, und Sie würden die Lippen-, Zahn wahrscheinlich Gruppe und alveolaren Plosive - seien sie stimmlos oder zusammen geäußert - gewährt, das tue ich nicht Ich kann Polnisch, also weiß ich nicht, ob ich nur Dinge sage, die dort nicht wahr sind.Verstecken Sie dann alle Namen in der Datenbank in die beiden verschiedenen Soundex-Systeme und finden Sie heraus, welche Namen in den verschiedenen Sprachen die geringste Anzahl von Kollisionen aufweisen. Dies gibt Ihnen eindeutige Namen. Das zeigt sich
Smith
also nicht alsSmyth
.Dies löst jedoch nur den "Namen, der wahrscheinlich mit anderen Namen kollidiert und verhört wird". Es spricht nicht die andere Art von "richtig gehört, falsch niedergeschrieben" an, und deshalb sollte man sich auf gebräuchliche Namen konzentrieren.
Zum Beispiel
Michael
war ein sehr verbreiteter Name in den USA von Anfang 1950 bis Ende 1970. Es war sehr beliebt . Aus irgendeinem Grund war der NameMicheal
jedoch in den 1950er Jahren sehr beliebt (bis zum 83. gebräuchlichsten Namen auf seinem Höhepunkt). Und ich bin mir sicher, dass die Namen der genannten PersonenMicheal
ständig falsch geschrieben wurden.Daher sollten Sie sich auf Namen konzentrieren, bei denen es einen Namen gibt, der die Popularität des Namens für eine bestimmte Aussprache dominiert. Der Blick auf einen anderen Daten der Verbraucher für die Namen von Jahr können Sie sehen , dass Namen mit Jam beginnt ... für einen Jungen sind ein einziges Chaos mit
Jamaal
,Jamal
,Jamar
und andere. Im übrigen haben diese Namen etwas andere soundexes für amerikanisches (J540
,J540
undJ560
- dasl
undr
sind in verschiedenen Gruppen , obwohl sie eng in phonetics beziehen). Für jemanden aus Japan gibt es jedoch nur einen Laut in der phonetischen Region, in derl
undr
werden im amerikanischen Englisch ausgesprochen. Dies kann auch eine Herausforderung für die führenden Konsonanten darstellen, die Soundex verwenden, dessen man sich bewusst sein sollte (ich habe einmal mit einer Japanerin gearbeitet, die sich Risa (mit einem 'R') nannte, anstatt Lisa als Romanisierung ihres japanischen Namens).Sie werden feststellen, dass meine Beispiele für die Vereinigten Staaten sind. Diese Daten sind leicht zugänglich. Anscheinend gibt es einige Dinge für Polen und Ungarisch und nur Hinweise auf die Gemeinsamkeit der ungarischen Namen ... Ich vermute, dass die Suche in einer anderen Sprache als Englisch dort hilfreich sein könnte.
Angesichts des Soundex für einen Namen gibt es also nur wenige Kollisionen, und die tatsächliche Schreibweise ist in der Menge der Kollisionen enthalten. Vorzugsweise ist dies ein gebräuchlicher Name. Wenn man sich diese ungarische Liste ansieht, wird
Krisztián
es wahrscheinlich zu Rechtschreibfehlern kommen,Zoltán
weniger wahrscheinlich (Nr. 22 der häufigsten Babynamen 2011 in Ungarn!). Das heißt, Sie können nichts falsch machenMichael
.quelle
Sie möchten sich wahrscheinlich mit dem phonetischen Algorithmus von Double Metaphone befassen, der die Aussprache von Wörtern in verschiedenen Sprachen behandelt. Es gibt auch ein Metaphone 3, aber die Benutzung kostet Geld.
quelle