Normalisierung vs. Skalierung

45

Was ist der Unterschied zwischen Daten "Normalisierung" und Daten "Skalierung"? Bis jetzt dachte ich, beide Begriffe beziehen sich auf denselben Prozess, aber jetzt stelle ich fest, dass es noch etwas gibt, das ich nicht kenne / verstehe. Auch wenn es einen Unterschied zwischen Normalisierung und Skalierung gibt, wann sollten wir Normalisierung verwenden, aber nicht Skalierung und umgekehrt?

Bitte erläutern Sie dies anhand eines Beispiels.

d.putto
quelle
6
Normalisieren bedeutet normalerweise, Ihre Beobachtungen in umzuwandeln (wobei eine messbare, normalerweise kontinuierliche Funktion ist), sodass sie normal verteilt aussehen . Einige Beispiele für Transformationen zum Normalisieren von Daten sind Leistungstransformationen . Skalieren bedeutet einfach , , dh, Sie multiplizieren Ihre Beobachtungen mit einer Konstante die den Maßstab ändert (z. B. von Nanometern zu Kilometern). . f ( x ) f f ( x ) = c x c R cxf(x)ff(x)=cxcRc
1
Verwandte / auch von Interesse: was ist-der-Differenz-zwischen-Normalisierung-und-Standardisierung .
gung - Wiedereinsetzung von Monica
Die Normalisierung ist ebenso eine Skalierungsmethode wie die Standardisierung
Ich habe nicht genug Ruf auf Statistiken, um zu antworten. Ich denke, der Titel Ihrer Frage sollte "Normalisierung" oder "Standardisierung" lauten, da es sich um unterschiedliche Ansätze zur Neuskalierung handelt. Bei der Normalisierung werden die Werte in den Bereich von 0 und 1 neu skaliert, während bei der Standardisierung die Verteilung auf 0 als Mittelwert und 1 als Standardabweichung verschoben wird.
Hamid Heydarian

Antworten:

23

Mir ist keine "offizielle" Definition bekannt, und selbst wenn es eine gibt, sollten Sie ihr nicht vertrauen, da Sie sehen werden, dass sie in der Praxis inkonsistent verwendet wird.

Unter Skalierung in der Statistik versteht man in der Regel eine lineare Transformation der Form .f(x)=ax+b

Normalisieren kann entweder bedeuten, dass eine Transformation angewendet wird, sodass die transformierten Daten grob normal verteilt sind, aber es kann auch einfach bedeuten, dass verschiedene Variablen auf einer gemeinsamen Skala platziert werden. Ein Beispiel für die spätere Verwendung ist die Normierung, bei der der Mittelwert subtrahiert und durch die Standardabweichung dividiert wird. Wie Sie vielleicht sehen, ist dies auch ein Beispiel für die Skalierung. Ein Beispiel für das erste wäre, das Protokoll für logarithmisch normal verteilte Daten zu verwenden.

Was Sie jedoch wegnehmen sollten, ist, dass Sie beim Lesen nach einer genaueren Beschreibung dessen suchen sollten, was der Autor getan hat. Manchmal kann man es aus dem Kontext bekommen.

Erik
quelle
14

Die Skalierung ist eine persönliche Wahl, um die Zahlen als richtig empfinden zu lassen, z. B. zwischen Null und Eins oder Eins und Hundert. Konvertieren Sie beispielsweise Daten in Millimeter in Meter, weil dies praktischer ist, oder imperial in metrisch.

Während es bei der Normalisierung um die Skalierung auf einen externen "Standard" - die lokale Norm - geht, z. B. um das Entfernen des Mittelwerts und das Teilen durch die Standardabweichung der Stichprobe, damit Ihre sortierten Daten mit einer kumulativen Normalen oder einem kumulativen Poisson verglichen werden können, oder wie auch immer.

Wenn also ein Dozent oder Manager möchte, dass Daten normalisiert werden, bedeutet dies "Skaliere es nach meinem Geschmack neu " ;-)

Philip Oakley
quelle
9

Ich weiß nicht, ob Sie genau das meinen, aber ich sehe viele Leute, die sich auf Normalisierung beziehen, was Datenstandardisierung bedeutet. Die Standardisierung transformiert Ihre Daten so, dass sie den Mittelwert 0 und die Standardabweichung 1 haben:

x <- (x - mean(x)) / sd(x)

Ich sehe auch Leute, die den Begriff Normalisierung für die Datenskalierung verwenden, wie beim Umwandeln Ihrer Daten in einen 0-1-Bereich:

x <- (x - min(x)) / (max(x) - min(x))

Es kann verwirrend sein!

Beide Techniken haben ihre Vor- und Nachteile. Wenn Sie ein Dataset mit zu vielen Ausreißern skalieren, werden Ihre Nicht-Ausreißerdaten möglicherweise in einem sehr kleinen Intervall gespeichert. Wenn Ihr Dataset also zu viele Ausreißer enthält, sollten Sie eine Standardisierung in Betracht ziehen. Wenn Sie dies tun, erhalten Sie jedoch negative Daten (manchmal möchten Sie das nicht) und unbegrenzte Daten (möglicherweise möchten Sie das auch nicht).

Renata
quelle
3

Zentrieren bedeutet, den Mittelwert der Zufallsvariablen aus den Variablen zu subtrahieren. Dh x-xi

Skalieren bedeutet, eine Variable durch ihre Standardabweichung zu dividieren. Dh xi / s

Die Kombination der beiden wird als Normalisierung oder Standardisierung bezeichnet. Dh x-xi / s

Frankfurt Ogunfunminiyi
quelle
Die Frage ist ein Duplikat.
Michael Chernick