Möglichkeiten, mit Längen- und Breitengrad umzugehen [geschlossen]

18

Ich arbeite an einem fiktiven Datensatz mit 25 Funktionen. Zwei der Merkmale sind der Breiten- und Längengrad eines Ortes und andere sind pH-Werte, die Höhe, die Windgeschwindigkeit usw. mit unterschiedlichen Bereichen. Ich kann die anderen Funktionen normalisieren, aber wie gehe ich an Breiten- / Längengradfunktionen heran?

Bearbeiten: Dies ist ein Problem, um den Ertrag der Landwirtschaft vorherzusagen. Ich denke, lat / long ist sehr wichtig, da Standorte für die Vorhersage und damit für das Dilemma von entscheidender Bedeutung sein können.

AllThingsScience
quelle
Können Sie erklären, warum Sie nicht glauben, dass Sie diese Funktionen normalisieren können? Vermutlich sind sie numerisch gleich wie andere Features, also kannst du mean / sd nehmen? Sind Sie besorgt über natürliche Entfernungsmessungen zwischen Standorten? Wenn ja, umfassen die Daten einen kleinen Bereich (mit ähnlichen Werten) oder sind sie global?
Neil Slater
@NeilSlater Es ist nur so intuitiv, dass es für mich keinen Sinn macht, diese Funktionen zu normalisieren. Gehen die Informationen nicht verloren, wenn sie normalisiert werden? Ich habe den Datensatz, der Grafschaften von Amerika abdeckt.
AllThingsScience
Welche Informationen gehen Ihrer Meinung nach verloren? Es wird wahrscheinlich nicht wirklich verloren gehen, aber wenn Sie in Ihrer Frage erklären, was Ihr Anliegen ist, wird jemand in der Lage sein zu antworten. Wenn ich es nicht mehr wüsste, würde ich es trotzdem normalisieren - für vollständig globale Werte und einige Probleme (bei denen der Abstand zwischen Punkten wichtig ist) könnte ich ein 3D-Kartesisches Koordinaten-Feature aus dem Long / Lat erstellen.
Neil Slater
Was ist deine Frage hier? Was versuchen Sie aus den Daten herauszufinden? Korrelation? Clustering? Einstufung? Prognose? Interpolation? Wie wichtig ist der Standort für Ihr Modell?
Spacedman
@Spacedman Siehe Bearbeiten.
AllThingsScience

Antworten:

23

Lat lange Koordinaten haben das Problem, dass es sich um 2 Features handelt, die einen dreidimensionalen Raum darstellen. Dies bedeutet, dass die lange Koordinate rundherum verläuft, was bedeutet, dass die beiden extremsten Werte tatsächlich sehr nahe beieinander liegen. Ich habe mich einige Male mit diesem Problem befasst und in diesem Fall ordne ich sie den Koordinaten x, y und z zu. Dies bedeutet, dass nahe Punkte in diesen 3 Dimensionen auch in der Realität nahe sind. Je nach Anwendungsfall können Sie die Höhenänderungen ignorieren und einer perfekten Kugel zuordnen. Diese Funktionen können dann ordnungsgemäß standardisiert werden.

Zur Verdeutlichung (zusammengefasst aus den Kommentaren):

x = cos(lat) * cos(lon)
y = cos(lat) * sin(lon), 
z = sin(lat) 
Jan van der Vegt
quelle
1
Das ist sehr interessant. Vielen Dank! Können Sie bestätigen, ob dies die Formeln für die Konvertierung sind? x = R * cos (lat) * cos (lon), y = R * cos (lat) * sin (lon), z = R * sin (lat)
AllThingsScience
Ich habe im Moment keinen Zugriff auf meinen Code, aber er sieht richtig aus. Sie brauchen das R nicht, da Sie sowieso standardisieren werden;)
Jan van der Vegt
Perfekt! Vielen Dank.
AllThingsScience