Ich studiere Datenskalierung und insbesondere die Standardisierungsmethode. Ich habe die Mathematik dahinter verstanden, aber mir ist nicht klar, warum es wichtig ist, den Merkmalen den Mittelwert Null und die Einheitsvarianz zu geben.
Kannst du mir erklären ?
Antworten:
Die Frage, ob und warum es wichtig ist, hängt vom Kontext ab.
Für gradientenverstärkte Entscheidungsbäume ist dies beispielsweise nicht wichtig - diese ML-Algorithmen kümmern sich nicht um monotone Transformationen der Daten. Sie suchen nur nach Punkten, um es zu teilen.
Bei linearen Prädiktoren kann beispielsweise die Skalierung die Interpretierbarkeit der Ergebnisse verbessern. Wenn Sie sich die Größe der Koeffizienten als Hinweis darauf vorstellen möchten, wie stark ein Feature das Ergebnis beeinflusst, müssen die Features irgendwie auf denselben Bereich skaliert werden.
Für einige Prädiktoren, insbesondere NNs, kann die Skalierung und insbesondere die Skalierung auf einen bestimmten Bereich aus technischen Gründen wichtig sein. Einige der Ebenen verwenden Funktionen, die sich nur in einem bestimmten Bereich effektiv ändern (ähnlich der hyperbolischen Funktionsfamilie ). Wenn die Merkmale zu weit außerhalb des Bereichs liegen, kann es zu einer Sättigung kommen. In diesem Fall funktionieren numerische Ableitungen schlecht und der Algorithmus kann möglicherweise nicht zu einem guten Punkt konvergieren.
quelle
Im Fall eines Mittelwerts von Null liegt dies daran, dass einige Modelle des maschinellen Lernens keinen Bias-Term in ihrer Darstellung enthalten, sodass wir Daten um den Ursprung verschieben müssen, bevor wir sie dem Algorithmus zuführen, um das Fehlen eines Bias-Terms auszugleichen. Im Falle einer Einheitsvarianz liegt dies daran, dass viele Algorithmen für maschinelles Lernen eine Art Distanz (z. B. euklidisch) verwenden, um zu entscheiden oder vorherzusagen. Wenn ein bestimmtes Merkmal breite Werte aufweist (dh große Varianz), wird der Abstand stark von diesem Merkmal beeinflusst und die Auswirkung anderer Merkmale wird ignoriert. Übrigens haben einige Optimierungsalgorithmen (einschließlich Gradientenabstieg) eine bessere Leistung, wenn die Daten standardisiert sind.
quelle
Man kann hier jedoch Zweifel aufkommen lassen, dass selbst wenn die Merkmale nicht normalisiert sind, die beim Lernen zugewiesenen Gewichte dazu beitragen können, dass der Datensatz während des Trainings zur erwarteten Ausgabe konvergiert. Das Problem dabei ist, dass es sehr lange dauern wird, um zu trainieren und Ergebnisse zu erzielen.
Daher wird empfohlen, alle Funktionen auf den gleichen Maßstab zu bringen, der kleiner genug ist, um problemlos trainiert zu werden. Der folgende Link beschreibt auch ein ähnliches Konzept. /stats/41704/how-and-why-do-normalization-and-feature-scaling-work
quelle