Ich arbeite an einem fiktiven Datensatz mit 25 Funktionen. Zwei der Merkmale sind der Breiten- und Längengrad eines Ortes und andere sind pH-Werte, die Höhe, die Windgeschwindigkeit usw. mit unterschiedlichen Bereichen. Ich kann die anderen Funktionen normalisieren, aber wie gehe ich an Breiten- / Längengradfunktionen heran?
Bearbeiten: Dies ist ein Problem, um den Ertrag der Landwirtschaft vorherzusagen. Ich denke, lat / long ist sehr wichtig, da Standorte für die Vorhersage und damit für das Dilemma von entscheidender Bedeutung sein können.
machine-learning
python
feature-engineering
feature-scaling
normalization
AllThingsScience
quelle
quelle
Antworten:
Lat lange Koordinaten haben das Problem, dass es sich um 2 Features handelt, die einen dreidimensionalen Raum darstellen. Dies bedeutet, dass die lange Koordinate rundherum verläuft, was bedeutet, dass die beiden extremsten Werte tatsächlich sehr nahe beieinander liegen. Ich habe mich einige Male mit diesem Problem befasst und in diesem Fall ordne ich sie den Koordinaten x, y und z zu. Dies bedeutet, dass nahe Punkte in diesen 3 Dimensionen auch in der Realität nahe sind. Je nach Anwendungsfall können Sie die Höhenänderungen ignorieren und einer perfekten Kugel zuordnen. Diese Funktionen können dann ordnungsgemäß standardisiert werden.
Zur Verdeutlichung (zusammengefasst aus den Kommentaren):
quelle