Was sind einige Situationen, in denen die Normalisierung der Eingabedaten auf Null bedeutet, dass die Einheitsvarianz nicht angemessen oder nicht vorteilhaft ist?

7

Ich habe beim maschinellen Lernen viele Male eine Normalisierung der Eingabedaten auf den Mittelwert Null und die Einheitsvarianz gesehen. Ist dies eine gute Praxis, die ständig durchgeführt werden muss, oder gibt es Zeiten, in denen dies nicht angemessen oder nicht vorteilhaft ist?

user781486
quelle

Antworten:

6

Eine ausführliche Antwort auf die Frage finden Sie hier .

[...] gibt es Zeiten, in denen dies nicht angemessen oder nicht vorteilhaft ist?

Kurze Antwort: Ja und Nein. Ja, in den Begriffen, dass dies Ihre Ausgabe von z. B. Clustering-Algorithmen erheblich verändern kann. Nein , andererseits, wenn Sie diese Änderungen erreichen möchten. Oder um es in den Worten des Autors der genannten Quelle auszudrücken:

Skalierungsfunktionen für Clustering-Algorithmen können das Ergebnis erheblich verändern. Stellen Sie sich vier Cluster um den Ursprung vor, die sich jeweils in einem anderen Quadranten befinden und alle gut skaliert sind. Stellen Sie sich nun vor, die y-Achse wird auf das Zehnfache der Länge der x-Achse gedehnt. Anstelle von vier kleinen Quadranten-Clustern erhalten Sie das lange gequetschte Baguette mit Daten, das entlang seiner Länge in vier Teile geschnitten wird! (Und der wichtige Teil ist, dass Sie vielleicht beides bevorzugen!)

Die Botschaft zum Mitnehmen lautet: Überlegen Sie immer genau, was Sie erreichen möchten und welche Art von Daten Ihre Algorithmen bevorzugen - es spielt eine Rolle!

André
quelle
PCA wäre übrigens einer der Algorithmen, die nicht ohne Normalisierung betrieben werden wollen - nur um die andere Seite der Geschichte hervorzuheben.
André