Können GPS-Koordinaten (Längen- und Breitengrad) als Merkmale in einem linearen Modell verwendet werden?

10

Ich habe Datensätze, die unter anderem GPS-Koordinaten (Längen- und Breitengrad) enthalten. Ich möchte diese Datensätze verwenden, um Probleme zu untersuchen wie: (1) Berechnen der ETA, um zwischen Start- und Endpunkten zu fahren; und (2) Schätzen des Ausmaßes der Kriminalität für einen bestimmten Punkt.

Ich möchte ein lineares Regressionsmodell verwenden. Kann ich diese GPS-Koordinaten jedoch direkt in einem linearen Modell verwenden?

Breite und Länge haben keine ordinale Eigenschaft , wie zum Beispiel das Alter einer Person. Beispielsweise scheinen die beiden Punkte (40.805996, -96.681473) und (41.226682, -95.986587) keine sinnvolle Reihenfolge zu haben. Sie sind nur Punkte im Raum. Ich dachte daran, sie durch kategoriale US-Postleitzahlen zu ersetzen und dann eine One-Hot-Codierung durchzuführen , aber das würde zu vielen Variablen führen.

stackoverflowuser2010
quelle
1
Müssen Sie sie direkt verwenden ? Haben Sie schon von Zoning-Tools wie dem AZP-Algorithmus von S. Openshaw gehört? Sie können Regionen in einer Karte sogar manuell abgrenzen, um Regionen / Zonen zu trennen, wenn der Bereich relativ konsistent ist.
Mephy
@Mephy: Das würde bedeuten, dass ich Lat / Long in Zonen konvertieren würde, oder? Aber dann hätte ich Hunderte oder Tausende von kategorialen Zonen, genau wie bei Postleitzahlen. Ich müsste sie alle einmalig codieren.
stackoverflowuser2010
Kommt natürlich darauf an, wie du die Zonen schneidest. Wenn Sie "südlich der Äquatorlinie / nördlich der Äquatorlinie" wählen, sind es nur zwei. Viele Zoning-Algorithmen haben einige Hyperparameter, um Größen wie die Anzahl der Zonen oder die minimale Zonengröße zu definieren.
Mephy
Ich habe das gleiche Problem. Ich möchte die Position eines Volkes vorhersagen. Ich habe alle Geolokalisierungsfunktionen in Trainingsdaten geohasht. Danach wird LabelDecoder verwendet, um die kategoriale Standortfunktion zu transformieren. Schließlich ist das Ergebnis schrecklich. Gibt es eine gute Idee, sich mit der räumlichen Vorhersage zu befassen?
Berisfu

Antworten:

5

Sie können sie nicht direkt verwenden, da es unwahrscheinlich ist, dass eine echte lineare Beziehung besteht, es sei denn, Sie möchten vorhersagen, "wie weit östlich oder nördlich" jemand ist. Wie in den Kommentaren erwähnt, müssen Sie sie in Zonen konvertieren. Wenn Sie es wirklich einfach halten möchten, können Sie einen kNN-Clustering-Algorithmus mit einer geringen Anzahl potenzieller Cluster verwenden und dann jeder Instanz eine neue Funktion mit der Cluster-ID zuweisen und diese dann mit einer Hot-Codierung codieren.

Vielleicht möchten Sie auch lesen, wie Personen Koordinaten interpolieren, um Werte auf einer ganzen Karte vorherzusagen. Das erste Beispiel betrifft Temperaturstationen, aber Sie können sich auch vorstellen, dass es sich um "heiße Zonen" für Kriminalität handelt.

( DOCS )

CalZ
quelle
2

Sie können tun, was auch immer Ihr Herz begehrt, aber wenn Ihr Modell nicht die Temperatur oder den Zeitunterschied vorhersagt, kann ich keine andere Zielvariable finden, die ausschließlich von den Koordinaten abhängt.

Was Sie wahrscheinlich tun möchten, ist, eine externe Datenquelle zu verwenden und Ihre Daten mit Land / Postleitzahl / Klima / anderen geografischen Merkmalen anzureichern, die die Leistung Ihres Modells unterstützen.

GregA
quelle
0

GPS-Koordinaten können direkt in einen Geohash umgewandelt werden . Geohash unterteilt die Erde basierend auf der Anzahl der Ziffern in "Eimer" unterschiedlicher Größe (kurze Geohash-Codes erzeugen große Flächen und längere Codes für kleinere Flächen).

Ein Geohash ist eine einzelne Zahl, die als Feature in einem Modell verwendet werden kann.

Geohash gilt nur für die ganze Welt, Postleitzahlen nicht.

Brian Spiering
quelle
Die Ausgabe eines Geohashers ist eine Zeichenfolge, keine einzelne Zahl, oder? Und wenn der Geohash eine Zeichenfolge ist, müsste ich ihn mit einer Hot-Codierung codieren, was zu vielen Variablen führen würde, genau wie bei einer mit einem Hot-Code codierten Postleitzahl.
stackoverflowuser2010
Ein Geohash ist eine einzelne Zahl, die in Basis 32 codiert ist. Es gibt keinen Grund für eine 1-Hot-Codierung. Wählen Sie die Genauigkeit und verwenden Sie die entsprechende Anzahl von Ziffern.
Brian Spiering
Ich habe nur String-Darstellungen von Geohashes gesehen. Gibt es eine lineare Beziehung zwischen ihnen, selbst wenn Geohashes als Long Int dargestellt wurden, um sie in einem linearen Modell zu verwenden? Das ist genau der Punkt meiner ursprünglichen Frage.
stackoverflowuser2010
Die Beziehung zwischen Geohashes ist etwas komplex - en.wikipedia.org/wiki/Geohash#Design
Brian Spiering
1
Es gibt viele Möglichkeiten des Feature-Engineerings, die über die lineare und One-Hot-Codierung hinausgehen. Zum Beispiel der Kernel-Trick oder die Helmert-Transformation.
Brian Spiering