Wert, der die Standardabweichung erhöht

12

Die folgende Aussage verwirrt mich:

"Um die Standardabweichung einer Reihe von Zahlen zu erhöhen, müssen Sie einen Wert hinzufügen, der mehr als eine Standardabweichung vom Mittelwert entfernt ist."

Was ist der Beweis dafür ? Ich weiß natürlich, wie wir die Standardabweichung definieren, aber dieser Teil scheint mir irgendwie zu fehlen. Irgendwelche Kommentare?

JohnK
quelle
1
Haben Sie versucht, die Algebra zu erarbeiten?
Alecos Papadopoulos
Ja, habe ich. Ich habe die Stichprobenvarianz von n Werten von der Varianz von n + 1 Werten subtrahiert und ich habe verlangt, dass die Differenz größer als Null ist. Dennoch kann ich es nicht ganz herausfinden.
JohnK
3
Eine der einfachsten Möglichkeiten besteht darin, den Welford-Algorithmus in Bezug auf den neuen Wert zu differenzieren und dann zu integrieren, um zu zeigen, dass, wenn die Varianz erhöht, wobei der Mittelwert der ersten Werte ist und ihre Varianzschätzung ist. xnxnx n-1n-1vn-1(xnx¯n1)2nn1vn1x¯n1n1vn1
whuber
Okay, aber kann das vielleicht mit einfacher Algebra gezeigt werden? Meine statistischen Kenntnisse sind noch nicht so weit fortgeschritten.
JohnK
@ JohnK, können Sie bitte die Quelle des Zitats teilen?
Pe Dro

Antworten:

20

Für alle Zahlen y 1 , y 2 , , y N mit dem Mittelwert ˉ y = 1Ny1,y2,,yN, die Varianz ist gegeben durch σ 2y¯=1Ni=1Nyi Anwenden von(1)auf die gegebene Menge vonnZahlenx1,x2,xn, die wir zur Vereinfachung der Darstellung als Mittelwert vonˉ betrachtenx=0, wir haben σ2=1

σ2=1N1i=1N(yiy¯)2=1N1i=1N(yi22yiy¯+y¯2)=1N1[(i=1Nyi2)2N(y¯)2+N(y¯)2](1)σ2=1N1i=1N(yi2(y¯)2)
(1)nx1,x2,xnx¯=0 Wenn wirdiesem Datensatznun eine neue Beobachtungxn+1hinzufügen, dann ist der neue Mittelwert des Datensatzes 1
σ2=1n1i=1n(xi2(x¯)2)=1n1i=1nxi2
xn+1 , während die neue Varianz σ 2
1n+1i=1n+1xi=nx¯+xn+1n+1=xn+1n+1
Also| xn+1| muss größer alsσ√ sein
σ^2=1ni=1n+1(xi2xn+12(n+1)2)=1n[((n1)σ2+xn+12)xn+12n+1]=1n[(n1)σ2+nn+1xn+12]>σ2 only if xn+12>n+1nσ2.
|xn+1| oder allgemeinergesagtxn+1muss sich vom Mittelwert meanxdes ursprünglichen Datensatzes um mehr alsσ√ unterscheidenσ1+1nxn+1x¯ , damit der erweiterte Datensatz eine größere Varianz aufweist als der ursprüngliche Datensatz. Siehe auch die Antwort von Ray Koopman, in der darauf hingewiesen wird, dass die neue Varianz größer, gleich oder kleiner als die ursprüngliche Varianz gemäßxn+1 ist und sich vom Mittelwert um mehr, genau oder weniger alsσ√ unterscheidetσ1+1nxn+1 .σ1+1n
Dilip Sarwate
quelle
5
+1 Endlich macht es jemand richtig ... ;-) Die zu beweisende Aussage ist richtig; Es ist einfach nicht eng. Übrigens können Sie auch Ihre Maßeinheiten so auswählen, dass , was die Berechnung weiter vereinfacht und auf etwa zwei Zeilen reduziert. σ2=1
Whuber
Ich schlage vor, Sie verwenden S anstelle von Sigma im ersten Satz von Gleichungen und danke für die Herleitung. Es war gut zu wissen :)
Theoden
3

Die rätselhafte Aussage gibt eine notwendige, aber unzureichende Bedingung für die Erhöhung der Standardabweichung an. Wenn die alte Stichprobengröße , der alte Mittelwert m ist , die alte Standardabweichung s ist und ein neuer Punkt x zu den Daten hinzugefügt wird, ist die neue Standardabweichung entsprechend s kleiner, gleich oder größer als s als | x - m | ist kleiner als, gleich oder größer als s nmsxs|xm| .s1+1/n

Ray Koopman
quelle
1
Haben Sie einen Beweis zur Hand?
JohnK
2

Wenn Sie die Algebra (die auch funktioniert) beiseite lassen, denken Sie so: Die Standardabweichung ist die Quadratwurzel der Varianz. Die Varianz ist der Durchschnitt der quadratischen Abstände vom Mittelwert. Wenn wir einen Wert hinzufügen, der näher am Mittelwert liegt, wird die Varianz kleiner. Wenn wir einen Wert hinzufügen, der weiter vom Mittelwert entfernt ist, wächst er.

Dies gilt für jeden Durchschnitt von Werten, die nicht negativ sind. Wenn Sie einen Wert hinzufügen, der über dem Mittelwert liegt, erhöht sich der Mittelwert. Wenn Sie einen niedrigeren Wert hinzufügen, wird dieser verringert.

Peter Flom - Wiedereinsetzung von Monica
quelle
Ich würde gerne auch einen strengen Beweis sehen. Während ich das Prinzip verstehe, bin ich verwirrt darüber, dass der Wert mindestens 1 Abweichung vom Mittelwert betragen muss. Warum genau 1?
JohnK
Ich sehe nicht, was verwirrend ist. Die Varianz ist der Durchschnitt. Wenn Sie etwas hinzufügen, das über dem Durchschnitt liegt (dh mehr als 1 sd), steigt es an. Aber ich bin keiner für formelle Beweise
Peter Flom - Wiedereinsetzung von Monica
Sie könnte um 0,2 Standardabweichungen über dem Durchschnitt liegen. Warum würde es dann nicht zunehmen?
JohnK
Nein, nicht größer als der Mittelwert der Daten, größer als die Varianz, die der Mittelwert der quadratischen Abstände ist.
Peter Flom - Wiedereinsetzung von Monica
4
Dies ist verwirrend, da sich durch das Hinzufügen eines neuen Werts der Mittelwert ändert und sich alle Residuen ändern. Es ist vorstellbar, dass selbst wenn der neue Wert weit vom alten Mittelwert entfernt ist, sein Beitrag zur SD durch Reduzieren der Quadratsumme der Residuen der anderen Werte kompensiert werden könnte. Dies ist einer der vielen Gründe, warum strenge Beweise nützlich sind: Sie bieten nicht nur Sicherheit im eigenen Wissen, sondern auch Einblicke (und sogar neue Informationen). Der Beweis zeigt zum Beispiel, dass Sie einen neuen Wert hinzufügen müssen, der strikt weiter als eine SD vom Mittelwert entfernt ist, um die SD zu erhöhen.
whuber
2

I'll get you started on the algebra, but won't take it quite all of the way. First, standardize your data by subtracting the mean and dividing by the standard deviation:

Z=xμσ.
Note that if x is within one standard deviation of the mean, Z is between -1 and 1. Z would be 1 if x were exactly one sd away from the mean. Then look at your equation for standard deviation:
σ=i=1NZi2N1
What happens to σ if ZN is between -1 and 1?
wcampbell
quelle
A number whose absolute value is less than 1, when squared it is also going to be less than 1 in abs. value. Yet what I do not understand is that even if Z_N falls into that category, we are adding a positive value to σ, so shouldn't it increase?
JohnK
Yes, you are adding a positive value, but it will be smaller than your average deviation from the mean and therefore reduce sigma. Maybe it would make more sense to consider the value as ZN+1.
wcampbell
1
1) Vergiss nicht, wenn du diesen Wert hinzufügst, steigst du auch N um 1. 2) Sie addieren diesen Wert nicht zu σ, you are adding it to Zi2.
jbowman
Exactly what I was trying to express!
wcampbell
It's not that simple: in this answer you have computed the SD as if the new value were already part of the dataset. Instead, the Zi have to be standardized with respect to the SD and mean of the first N1 values only, not all of them.
whuber