Was ist der Unterschied zwischen Daten "Normalisierung" und Daten "Skalierung"? Bis jetzt dachte ich, beide Begriffe beziehen sich auf denselben Prozess, aber jetzt stelle ich fest, dass es noch etwas gibt, das ich nicht kenne / verstehe. Auch wenn es einen Unterschied zwischen Normalisierung und Skalierung gibt, wann sollten wir Normalisierung verwenden, aber nicht Skalierung und umgekehrt?
Bitte erläutern Sie dies anhand eines Beispiels.
Antworten:
Mir ist keine "offizielle" Definition bekannt, und selbst wenn es eine gibt, sollten Sie ihr nicht vertrauen, da Sie sehen werden, dass sie in der Praxis inkonsistent verwendet wird.
Unter Skalierung in der Statistik versteht man in der Regel eine lineare Transformation der Form .f(x)=ax+b
Normalisieren kann entweder bedeuten, dass eine Transformation angewendet wird, sodass die transformierten Daten grob normal verteilt sind, aber es kann auch einfach bedeuten, dass verschiedene Variablen auf einer gemeinsamen Skala platziert werden. Ein Beispiel für die spätere Verwendung ist die Normierung, bei der der Mittelwert subtrahiert und durch die Standardabweichung dividiert wird. Wie Sie vielleicht sehen, ist dies auch ein Beispiel für die Skalierung. Ein Beispiel für das erste wäre, das Protokoll für logarithmisch normal verteilte Daten zu verwenden.
Was Sie jedoch wegnehmen sollten, ist, dass Sie beim Lesen nach einer genaueren Beschreibung dessen suchen sollten, was der Autor getan hat. Manchmal kann man es aus dem Kontext bekommen.
quelle
Die Skalierung ist eine persönliche Wahl, um die Zahlen als richtig empfinden zu lassen, z. B. zwischen Null und Eins oder Eins und Hundert. Konvertieren Sie beispielsweise Daten in Millimeter in Meter, weil dies praktischer ist, oder imperial in metrisch.
Während es bei der Normalisierung um die Skalierung auf einen externen "Standard" - die lokale Norm - geht, z. B. um das Entfernen des Mittelwerts und das Teilen durch die Standardabweichung der Stichprobe, damit Ihre sortierten Daten mit einer kumulativen Normalen oder einem kumulativen Poisson verglichen werden können, oder wie auch immer.
Wenn also ein Dozent oder Manager möchte, dass Daten normalisiert werden, bedeutet dies "Skaliere es nach meinem Geschmack neu " ;-)
quelle
Ich weiß nicht, ob Sie genau das meinen, aber ich sehe viele Leute, die sich auf Normalisierung beziehen, was Datenstandardisierung bedeutet. Die Standardisierung transformiert Ihre Daten so, dass sie den Mittelwert 0 und die Standardabweichung 1 haben:
Ich sehe auch Leute, die den Begriff Normalisierung für die Datenskalierung verwenden, wie beim Umwandeln Ihrer Daten in einen 0-1-Bereich:
Es kann verwirrend sein!
Beide Techniken haben ihre Vor- und Nachteile. Wenn Sie ein Dataset mit zu vielen Ausreißern skalieren, werden Ihre Nicht-Ausreißerdaten möglicherweise in einem sehr kleinen Intervall gespeichert. Wenn Ihr Dataset also zu viele Ausreißer enthält, sollten Sie eine Standardisierung in Betracht ziehen. Wenn Sie dies tun, erhalten Sie jedoch negative Daten (manchmal möchten Sie das nicht) und unbegrenzte Daten (möglicherweise möchten Sie das auch nicht).
quelle
Zentrieren bedeutet, den Mittelwert der Zufallsvariablen aus den Variablen zu subtrahieren. Dh x-xi
Skalieren bedeutet, eine Variable durch ihre Standardabweichung zu dividieren. Dh xi / s
Die Kombination der beiden wird als Normalisierung oder Standardisierung bezeichnet. Dh x-xi / s
quelle