Ich habe eine Liste mit mehreren Millionen Ortsnamen, die aus Flickr-Profilen stammen. Benutzer haben diese Ortsnamen als Freitext angegeben, sodass sie folgendermaßen aussehen:
Roma, Italy
Kennesaw, USA
Saginaw, MI
Rucker, Missouri, USA
Melbourne, Australia
Madrid, Spain
live in Sarnia / work in London, Canada
Valladolid, España
Italia
West Hollywood, United States
Ich möchte diese Ortsnamen eindeutig definieren. Ich bin mir bewusst, dass es in einigen Fällen keine einfache Lösung gibt, aber ich bin bereit, mit einer falschen Begriffsklärung und mit "keiner Antwort" für einige der Orte zu leben. Wenn ein Ortsname dem Namen mehrerer Städte entspricht, möchte ich diesen Ort der größten Stadt zuweisen, der er entspricht.
Die Platzfinder-API von Yahoo wäre eine gute Lösung für dieses Problem, aber ich müsste zu viele API-Aufrufe durchführen, um meine Liste zu durchlaufen. Daher möchte ich eine lokale Lösung (dh eine, die nicht von einer Remote-API abhängt). . Kennt jemand Python-Bibliotheken, die so etwas tun, oder andere lokale Lösungen?
(Ich habe diese Frage auch zum Stackoverflow gestellt .)