Mittelwert Null und Einheitsvarianz

10

Ich studiere Datenskalierung und insbesondere die Standardisierungsmethode. Ich habe die Mathematik dahinter verstanden, aber mir ist nicht klar, warum es wichtig ist, den Merkmalen den Mittelwert Null und die Einheitsvarianz zu geben.

Kannst du mir erklären ?

Qwerto
quelle
Schauen Sie sich hier an .
Medien
Das wäre großartig: medium.com/greyatom/…
Lerner Zhang

Antworten:

8

Die Frage, ob und warum es wichtig ist, hängt vom Kontext ab.

  • Für gradientenverstärkte Entscheidungsbäume ist dies beispielsweise nicht wichtig - diese ML-Algorithmen kümmern sich nicht um monotone Transformationen der Daten. Sie suchen nur nach Punkten, um es zu teilen.

  • Bei linearen Prädiktoren kann beispielsweise die Skalierung die Interpretierbarkeit der Ergebnisse verbessern. Wenn Sie sich die Größe der Koeffizienten als Hinweis darauf vorstellen möchten, wie stark ein Feature das Ergebnis beeinflusst, müssen die Features irgendwie auf denselben Bereich skaliert werden.

  • Für einige Prädiktoren, insbesondere NNs, kann die Skalierung und insbesondere die Skalierung auf einen bestimmten Bereich aus technischen Gründen wichtig sein. Einige der Ebenen verwenden Funktionen, die sich nur in einem bestimmten Bereich effektiv ändern (ähnlich der hyperbolischen Funktionsfamilie ). Wenn die Merkmale zu weit außerhalb des Bereichs liegen, kann es zu einer Sättigung kommen. In diesem Fall funktionieren numerische Ableitungen schlecht und der Algorithmus kann möglicherweise nicht zu einem guten Punkt konvergieren.

Geben Sie hier die Bildbeschreibung ein

Ami Tavory
quelle
2

Im Fall eines Mittelwerts von Null liegt dies daran, dass einige Modelle des maschinellen Lernens keinen Bias-Term in ihrer Darstellung enthalten, sodass wir Daten um den Ursprung verschieben müssen, bevor wir sie dem Algorithmus zuführen, um das Fehlen eines Bias-Terms auszugleichen. Im Falle einer Einheitsvarianz liegt dies daran, dass viele Algorithmen für maschinelles Lernen eine Art Distanz (z. B. euklidisch) verwenden, um zu entscheiden oder vorherzusagen. Wenn ein bestimmtes Merkmal breite Werte aufweist (dh große Varianz), wird der Abstand stark von diesem Merkmal beeinflusst und die Auswirkung anderer Merkmale wird ignoriert. Übrigens haben einige Optimierungsalgorithmen (einschließlich Gradientenabstieg) eine bessere Leistung, wenn die Daten standardisiert sind.

Pythoninker
quelle
2
  • Wenn wir beim maschinellen Lernen mit einem Datensatz beginnen, gehen wir häufig davon aus, dass alle Datenmerkmale in Bezug auf die Ausgabe gleich wichtig sind und ein Merkmal nicht das andere Merkmal dominieren sollte. Das ist im Allgemeinen der Grund, warum wir uns dafür entschieden haben, alle Funktionen auf den gleichen Maßstab zu bringen.
    Man kann hier jedoch Zweifel aufkommen lassen, dass selbst wenn die Merkmale nicht normalisiert sind, die beim Lernen zugewiesenen Gewichte dazu beitragen können, dass der Datensatz während des Trainings zur erwarteten Ausgabe konvergiert. Das Problem dabei ist, dass es sehr lange dauern wird, um zu trainieren und Ergebnisse zu erzielen.
  • Die Auswahl einer bestimmten Zahl 0 als Mittelwert und Varianz 1 ist nur die einfache Visualisierung, und das Beibehalten derart kleiner Zahlen würde zu einem schnelleren Training beitragen.

Daher wird empfohlen, alle Funktionen auf den gleichen Maßstab zu bringen, der kleiner genug ist, um problemlos trainiert zu werden. Der folgende Link beschreibt auch ein ähnliches Konzept. /stats/41704/how-and-why-do-normalization-and-feature-scaling-work

Divyanshu Shekhar
quelle