Was ist der Grund für die Standardisierung (Division durch Standardabweichung)?

8

Warum macht das Teilen eines Datensatzes durch Sigma die Stichprobenvarianz gleich 1? Der Einfachheit halber wird ein Mittelwert von Null angenommen.

Was ist die Intuition dahinter?

Das Teilen durch den Bereich (max-min) ist intuitiv sinnvoll. Standardabweichung jedoch nicht.

immer vorsichtig
quelle
1
Die Null-Mittelwert-Annahme ist nicht erforderlich. Sie können dies als drei separate Aussagen betrachten: Teilen durch SD ergibt eine SD von 1; die Varianz ist das Quadrat der SD; und das Quadrat von 1 ist 1.
Nick Cox
1
Wenn Leute intuitiv sagen, übersetze ich das als "mir vertraut" und meistens passt es. Gründe, warum nicht durch den Bereich geteilt wird, sind eher praktisch als theoretisch. Der Bereich kann sehr labil sein. Außerdem ist der Bereich aller Werte häufig enorm größer als der des Großteils der Werte, sodass die Ergebnisse nicht sehr hilfreich sind. Das Einkommen veranschaulicht beide Punkte: Das beobachtete Maximum kann launisch variieren und Werte geteilt durch den Bereich werden oft in der Nähe von 0 konzentriert.
Nick Cox

Antworten:

17

Dies ergibt sich aus der Eigenschaft der Varianz. Für eine ZufallsvariableX und eine Konstante a, var(aX)=a2var(x). Wenn Sie also die Daten durch ihre Standardabweichung teilen (σ), var(X/σ)=var(X)/σ2=σ2/σ2=1.

Chao Song
quelle
1
das hilft, danke. Haben Sie einen intuitiven Ansatz?
Alwayscurious
8

Beim Standardisieren werden lediglich die Einheiten so geändert, dass sie in Einheiten mit "Standardabweichung" angegeben sind. Nach der Standardisierung bedeutet ein Wert von 1,5 "1,5 Standardabweichungen über 0". Wenn die Standardabweichung 8 wäre, würde dies der Aussage "12 Punkte über 0" entsprechen.

Ein Beispiel: Wenn Sie Zoll in Fuß (in Amerika) umrechnen, multiplizieren Sie Ihre Daten in Zoll mit einem Umrechnungsfaktor. 1foot12inchesDies ergibt sich aus der Tatsache, dass 1 Fuß 12 Zoll entspricht. Sie multiplizieren Ihre Datenpunkte also im Wesentlichen nur mit einer ausgefallenen Version von 1 (dh einem Bruch mit gleichem Zähler und Nenner). Um beispielsweise von 72 Zoll auf Fuß zu gehen, tun Sie dies72inches×1foot12inches=6feet.

Wenn Sie Scores von Roheinheiten in Standardabweichungseinheiten konvertieren, multiplizieren Sie Ihre Daten in Roheinheiten mit dem Umrechnungsfaktor 1sdσpoints. Wenn Sie also eine Punktzahl von 100 und die Standardabweichung hatten (σ) war 20, wäre Ihre standardisierte Punktzahl 100points×1sd20points=5sd. Die Standardisierung verändert nur die Einheiten.

Das Ändern der Einheiten eines Datensatzes hat keinen Einfluss auf die Verteilung. Sie ändern einfach die Einheiten des verwendeten Spread-Maßes so, dass sie übereinstimmen. Wenn Ihre ursprünglichen Daten eine Standardabweichung von 20 Punkten hatten und Sie die Einheiten so geändert haben, dass 20 ursprüngliche Punkte 1 neuen standardisierten Einheit entsprechen, beträgt die neue Standardabweichung 1 Einheit (da 20 ursprüngliche Einheiten 1 neuer Einheit entsprechen).

Noah
quelle
2
Einige Ihrer Antworten erfordern eine zusätzliche Annahme, dass Sie den Mittelwert abgezogen haben, aber Sie erwähnen das nicht. Die Thread-Frage ist auch hier nicht eindeutig, da in der Statistik das Subtrahieren des Mittelwerts die Standardeinstellung ist, aber nur nach der Division durch die SD gefragt wird.
Nick Cox
Ich glaube nicht, dass meine Antwort diese Annahme erfordert, wenn wir Standardisierung so definieren, dass sie nur durch die SD dividiert wird (was OP tut). Ich spreche nur von einem Einheitenwechsel, nicht in Bezug auf die Mitte der Daten. Beispiel: Für eine Skala mit einem Mittelwert von 50 und einer SD von 10 würde eine Punktzahl von 20 eine standardisierte Punktzahl von 2 und nicht von -3 haben. Das Subtrahieren des Mittelwerts (Zentrieren) ist ein separates Problem.
Noah
Gutes Argument. Ich denke nicht, dass die Definition von Standardisierung als bloße Division durch die SD sozusagen überhaupt Standard ist, sondern dass Sie Ihrer Definition diesen Wert / SD gewähren=:zsagen wir, dann liegen dann alle Datenpunkte, die positiv sind, auf dem Standard über 0 z Skala und nur Punkte, die zufällig negativ sind, liegen unter 0 auf der zRahmen. Ob das eine so nützliche Standardisierung ist wie (WertMittelwert) / SD ist offen für Fragen.
Nick Cox
OP erwähnt in der Frage die Annahme, dass der Mittelwert Null ist
Soroush