Gute Ressourcen für Geokodierungsalgorithmen

19

Kennen Sie gute Ressourcen zu Geokodierungsalgorithmen?

Ich interessiere mich insbesondere für das Parsen von Adressabfragen, einschließlich des Abgleichs und der Gewichtung von Abfrageteilen, für Rechtschreibfehler und Variationen sowie für Details zur physischen Datenspeicherung (z. B. Schemata für direkte relationale Datenbankabfragen, Ansätze zur Datenindizierung usw.). .

Ich habe einige Dokumente zur ArcGIS 10-Geokodierung studiert, aber sie berühren die tatsächlichen Implementierungsdetails nur ein wenig. Eine detaillierte Dokumentation anderer hochwertiger Produktionsimplementierungen könnte ebenfalls hilfreich sein. Je technischer desto besser. Theoretische Algorithmuspapiere sind auch großartig.

Vielen Dank.

Petr Krebs
quelle

Antworten:

14

Vom Text zu geografischen Koordinaten: Der aktuelle Stand der Geokodierung

Daniel W. Goldberg, John P. Wilson und Craig A. Knoblock Zusammenfassung: Dieser Artikel bietet einen Überblick über den Stand der Geokodierungspraktiken durch eine disziplinübergreifende historische Überprüfung der vorhandenen Literatur. Wir untersuchen das sich entwickelnde Konzept der Geokodierung und die grundlegenden Komponenten des Prozesses. Häufig auftretende Fehler- und Unsicherheitsquellen sowie bestehende Maßnahmen zu ihrer Quantifizierung werden diskutiert. Es wird eine Untersuchung häufiger Fallstricke und anhaltender Herausforderungen im Geokodierungsprozess vorgestellt und die traditionellen Methoden zu ihrer Überwindung beschrieben.

10.1.1.119.714.pdf

PDF (ab Seite 34) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.119.714&rep=rep1&type=pdf

Mapperz
quelle
Ich glaube, Sie haben den falschen Link, citeseerx.ist.psu.edu/viewdoc/…
Andy W
@thanks 10.1.1.119.714.pdf ist der richtige aktualisierte Beitrag - eine andere Namenskonvention wäre besser gewesen.
Mapperz
6

Das mit Mapperz verknüpfte Papier ist sehr gut und enthält viele Zitate, die wahrscheinlich von Interesse sein werden, aber ich denke nicht, dass sie die Zeichenfolgenübereinstimmung und ihre Bedeutung für den Geokodierungsprozess sehr gut beschreiben. Sie haben Soundex kurz erwähnt , aber Soundex ist nicht die einzige Option und auch nicht die beste Option für Adressen IMO. Sie haben eine ganze Reihe von Zitaten aufgelistet, die für das Thema relevant sind, daher sind diese Artikel für Sie von Interesse.

In diesem Thread auf der Statistik-Austauschwebsite wird über das Fuzzy-Matching von zwei Zeichenfolgensätzen gesprochen, und beim Matching von Adressen werden dieselben Techniken angewendet. Insbesondere die Verwendung von Bearbeitungsabständen ist meiner Meinung nach sinnvoller als Soundex, insbesondere bei Adressangaben, die kein Soundex-Analog haben. Die Berechnung des Levenshtein-Abstands zwischen zwei Zeichenfolgen ist nicht allzu kompliziert, und es gibt viele Beispiele, die im Internet schweben ( hier eines in Python).

Ich habe gerade die letzte Stunde damit verbracht herauszufinden, wie ESRI ihre Rechtschreibempfindlichkeit und ihre unterschiedlichen Kandidaten- und Match-Scores implementiert. Ich habe nur einfache Beschreibungen gefunden (die besten, die ich in der Online-Hilfe zu diesem PDF und 9.3 gefunden habe ). Wenn mich jemand auf detailliertere Unterlagen hinweisen kann, wäre ich ebenso dankbar wie das OP.

Andy W
quelle