Ich habe Datensätze, die unter anderem GPS-Koordinaten (Längen- und Breitengrad) enthalten. Ich möchte diese Datensätze verwenden, um Probleme zu untersuchen wie: (1) Berechnen der ETA, um zwischen Start- und Endpunkten zu fahren; und (2) Schätzen des Ausmaßes der Kriminalität für einen bestimmten Punkt.
Ich möchte ein lineares Regressionsmodell verwenden. Kann ich diese GPS-Koordinaten jedoch direkt in einem linearen Modell verwenden?
Breite und Länge haben keine ordinale Eigenschaft , wie zum Beispiel das Alter einer Person. Beispielsweise scheinen die beiden Punkte (40.805996, -96.681473) und (41.226682, -95.986587) keine sinnvolle Reihenfolge zu haben. Sie sind nur Punkte im Raum. Ich dachte daran, sie durch kategoriale US-Postleitzahlen zu ersetzen und dann eine One-Hot-Codierung durchzuführen , aber das würde zu vielen Variablen führen.
quelle
Antworten:
Sie können sie nicht direkt verwenden, da es unwahrscheinlich ist, dass eine echte lineare Beziehung besteht, es sei denn, Sie möchten vorhersagen, "wie weit östlich oder nördlich" jemand ist. Wie in den Kommentaren erwähnt, müssen Sie sie in Zonen konvertieren. Wenn Sie es wirklich einfach halten möchten, können Sie einen kNN-Clustering-Algorithmus mit einer geringen Anzahl potenzieller Cluster verwenden und dann jeder Instanz eine neue Funktion mit der Cluster-ID zuweisen und diese dann mit einer Hot-Codierung codieren.
Vielleicht möchten Sie auch lesen, wie Personen Koordinaten interpolieren, um Werte auf einer ganzen Karte vorherzusagen. Das erste Beispiel betrifft Temperaturstationen, aber Sie können sich auch vorstellen, dass es sich um "heiße Zonen" für Kriminalität handelt.
( DOCS )
quelle
Sie können tun, was auch immer Ihr Herz begehrt, aber wenn Ihr Modell nicht die Temperatur oder den Zeitunterschied vorhersagt, kann ich keine andere Zielvariable finden, die ausschließlich von den Koordinaten abhängt.
Was Sie wahrscheinlich tun möchten, ist, eine externe Datenquelle zu verwenden und Ihre Daten mit Land / Postleitzahl / Klima / anderen geografischen Merkmalen anzureichern, die die Leistung Ihres Modells unterstützen.
quelle
GPS-Koordinaten können direkt in einen Geohash umgewandelt werden . Geohash unterteilt die Erde basierend auf der Anzahl der Ziffern in "Eimer" unterschiedlicher Größe (kurze Geohash-Codes erzeugen große Flächen und längere Codes für kleinere Flächen).
Ein Geohash ist eine einzelne Zahl, die als Feature in einem Modell verwendet werden kann.
Geohash gilt nur für die ganze Welt, Postleitzahlen nicht.
quelle