Warum ändert sich die Varianz einer Stichprobe, wenn die Beobachtungen dupliziert werden?
25
Die Varianz soll ein Maß für die Streuung sein. Also hatte ich gedacht, dass die Varianz von 3,5gleich der Varianz von ist, 3,3,5,5da die Zahlen gleich verteilt sind. Dies ist jedoch nicht der Fall, die Varianz von 3,5ist, 2während die Varianz von 3,3,5,5ist 1 1/3.
Dies verwundert mich angesichts der Erklärung, dass Varianz ein Maß für die Ausbreitung sein soll.
Was bedeutet in diesem Zusammenhang das Ausbreitungsmaß ?
Wenn Sie die Varianz als s2n=MSE= 1n∑ni = 1( xich- x¯)2- ähnlich der Populationsvarianz, aber mit dem Stichprobenmittelwert fürμ, dann hätten beide Stichproben dieselbe Varianz.
Der Unterschied beruht also nur auf der Besselschen Korrektur in der üblichen Formel für die Stichprobenvarianz ( s2n - 1= nn - 1⋅ MSE = nn - 1⋅ 1n∑ni = 1( xich- x¯)2= 1n - 1∑ni = 1( xich- x¯)2, wobei die Tatsache berücksichtigt wird, dass derStichprobenmittelwertnäher an den Daten liegt als der Populationsmittelwert, um ihn unvoreingenommen zu machen (den richtigen Wert anzunehmen) durchschnittlich").
n - 1nn → ∞
s2n
Varianz selbst ist kein direktes Maß für die Ausbreitung. Wenn ich alle Werte in meinem Datensatz verdopple, behaupte ich, dass sie doppelt so "verteilt" sind. Die Varianz nimmt jedoch um den Faktor 4 zu. Üblicherweise wird gesagt, dass die Standardabweichung und nicht die Varianz ein Maß für die Streuung ist.
sn - 1
Bei kleinen Stichproben macht die Bessel-Korrektur die Standardabweichung als Maß für die Streuung aufgrund dieses Effekts etwas weniger intuitiv (das Duplizieren der Stichprobe ändert den Wert). Viele Ausbreitungsmaße behalten jedoch den gleichen Wert bei, wenn die Probe dupliziert wird. Ich werde ein paar erwähnen -
sn
die mittlere (absolute) Abweichung vom Mittelwert
die mediane (absolute) Abweichung vom Median
den Interquartilbereich (zumindest für einige Definitionen von Stichprobenquartilen)
"Es gibt keinen besonderen Grund, warum Sie den unvoreingenommenen Schätzer verwenden müssen" - in der Tat sollten Sie nicht unbedingt etwas schätzen . Die Varianz von sich {3, 5}selbst ist 1 gemäß der ersten Formel. Wie Sie hervorheben, hat der Fragesteller versucht, die Varianz einer Population zu schätzen, von der angenommen wird, dass es sich um eine Stichprobe handelt, aber wer weiß, ob dies der Fall ist oder nicht.
Steve Jessop
1
VX= EVX+ VEX
Die übliche Stichprobenvarianzformel gleicht dies aus, und die Varianz des Mittelwerts der Stichprobe skaliert umgekehrt mit der Stichprobengröße.
Als extremes Beispiel zeigt die Entnahme einer einzelnen Stichprobe immer eine Stichprobenvarianz von 0, offensichtlich keine Varianz von 0 für die zugrunde liegende Verteilung.
Indem Schätzer mit Statistiken in Verbindung gebracht werden , verwirrt diese Antwort die Frage, anstatt sie zu klären. Bitte lies Glen_bs ursprüngliche Antwort in diesem Thread. Das Argument in den ersten beiden Absätzen ist rätselhaft, weil es für die Frage irrelevant zu sein scheint.
{3, 5}
selbst ist 1 gemäß der ersten Formel. Wie Sie hervorheben, hat der Fragesteller versucht, die Varianz einer Population zu schätzen, von der angenommen wird, dass es sich um eine Stichprobe handelt, aber wer weiß, ob dies der Fall ist oder nicht.Die übliche Stichprobenvarianzformel gleicht dies aus, und die Varianz des Mittelwerts der Stichprobe skaliert umgekehrt mit der Stichprobengröße.
Als extremes Beispiel zeigt die Entnahme einer einzelnen Stichprobe immer eine Stichprobenvarianz von 0, offensichtlich keine Varianz von 0 für die zugrunde liegende Verteilung.
quelle