Differenz zwischen Standardfehler und Standardabweichung

96

Ich habe Mühe, den Unterschied zwischen dem Standardfehler und der Standardabweichung zu verstehen. Wie unterscheiden sie sich und warum müssen Sie den Standardfehler messen?

Louis Xie
quelle
7
Ein kurzer Kommentar, keine Antwort, da bereits zwei nützliche vorhanden sind: Die Standardabweichung ist eine Eigenschaft der (Verteilung der) Zufallsvariablen. Der Standardfehler bezieht sich stattdessen auf eine Messung an einer bestimmten Probe. Die beiden können verwirrt werden, wenn die Unterscheidung zwischen dem Universum und Ihrer Probe verwischt wird.
Francesco
Möglicherweise von Interesse: stats.stackexchange.com/questions/15505/…
Macro

Antworten:

31

Um die Antwort auf die Frage zu vervollständigen, ging Ocram auf Standardfehler ein, stellte sie jedoch nicht der Standardabweichung gegenüber und erwähnte nicht die Abhängigkeit von der Stichprobengröße. Als Sonderfall für den Schätzer betrachten Sie den Stichprobenmittelwert. Der Standardfehler für den Mittelwert ist wobeiσdie Populationsstandardabweichung ist. In diesem Beispiel sehen wir also explizit, wie der Standardfehler mit zunehmender Stichprobengröße abnimmt. Die Standardabweichung wird am häufigsten verwendet, um sich auf die einzelnen Beobachtungen zu beziehen. Die Standardabweichung beschreibt also die Variabilität der einzelnen Beobachtungen, während der Standardfehler die Variabilität des Schätzers anzeigt. Gute Schätzer sind konsistent, was bedeutet, dass sie zum wahren Parameterwert konvergieren. Wenn ihr Standardfehler mit zunehmender Stichprobengröße auf 0 sinkt, sind die Schätzer konsistent, was in den meisten Fällen der Fall ist, weil der Standardfehler auf 0 geht, wie wir dies explizit mit dem Stichprobenmittelwert sehen.σ/nσ

Michael Chernick
quelle
3
Betreff: "... konsistent, was bedeutet, dass ihr Standardfehler auf 0 sinkt" - das ist nicht wahr. Erinnern Sie sich an diese Diskussion: stats.stackexchange.com/questions/31036/… ?
Makro
1
Ja, natürlich erinnere ich mich an die Diskussion über die ungewöhnlichen Ausnahmen und dachte darüber nach, als ich die Frage beantwortete. Die Frage war jedoch nach Standardfehlern, und vereinfacht ausgedrückt sind die guten Parameterschätzungen konsistent und weisen Standardfehler auf, die zu 0 tendieren, wie im Fall des Stichprobenmittelwerts.
Michael Chernick
4
Ich stimme Ihrem Kommentar zu - der Standardfehler des Stichprobenmittelwerts geht auf 0 und der Stichprobenmittelwert ist konsistent. Der Standardfehler, der auf Null geht, ist jedoch keine Konsequenz (oder Entsprechung) der Tatsache, dass er konsistent ist, wie in Ihrer Antwort angegeben.
Makro
3
@Macro Ja, die Antwort könnte verbessert werden, wofür ich mich entschieden habe. Ich denke, es ist wichtig, nicht zu technisch mit den OPs umzugehen, da die Qualifikation kompliziert und verwirrend sein kann. Die technische Genauigkeit sollte jedoch nicht der Einfachheit halber geopfert werden. Daher denke ich, dass die Art und Weise, wie ich das in meiner Bearbeitung angesprochen habe, die beste Art ist, dies zu tun.
Michael Chernick
9
Ich bin damit einverstanden, dass es wichtig ist, nicht technisch zu werden, es sei denn, dies ist absolut notwendig. Mein einziger Kommentar war, dass es keinen Sinn hat, das Konzept der Konsistenz (ein technisches Konzept) einzuführen, wenn man es falsch charakterisiert, um die Antwort verständlicher zu machen. Ich denke, Ihre Bearbeitung bezieht sich jedoch auf meine Kommentare.
Makro
51

Hier ist eine praktischere (und nicht mathematische) Antwort:

  • Die SD (Standardabweichung) quantifiziert die Streuung - wie stark die Werte voneinander abweichen.
  • Das SEM (Standardfehler des Mittelwerts) gibt an, wie genau Sie den wahren Mittelwert der Bevölkerung kennen. Dabei werden sowohl der SD-Wert als auch die Stichprobengröße berücksichtigt.
  • Sowohl SD als auch SEM befinden sich in denselben Einheiten - den Einheiten der Daten.
  • Das SEM ist per Definition immer kleiner als das SD.
  • Das REM wird kleiner, wenn Ihre Proben größer werden. Dies ist sinnvoll, da der Mittelwert einer großen Stichprobe wahrscheinlich näher am wahren Bevölkerungsmittelwert liegt als der Mittelwert einer kleinen Stichprobe. Bei einer großen Stichprobe kennen Sie den Wert des Mittelwerts sehr genau, auch wenn die Daten sehr verstreut sind.
  • Die SD ändert sich nicht vorhersehbar, wenn Sie mehr Daten erfassen. Die SD, die Sie aus einer Stichprobe berechnen, ist die bestmögliche Schätzung der SD der Gesamtbevölkerung. Wenn Sie mehr Daten erfassen, können Sie die SD der Population genauer bestimmen. Sie können jedoch nicht vorhersagen, ob die SD aus einem größeren Sample größer oder kleiner sein wird als die SD aus einem kleinen Sample. (Dies ist eine Vereinfachung, nicht ganz richtig. Siehe Kommentare unten.)

Beachten Sie, dass Standardfehler für fast jeden Parameter berechnet werden können, den Sie aus Daten berechnen, nicht nur für den Mittelwert. Der Ausdruck "der Standardfehler" ist etwas mehrdeutig. Die obigen Punkte beziehen sich nur auf den Standardfehler des Mittelwerts.

(Aus dem GraphPad Statistics Guide , den ich geschrieben habe.)

Harvey Motulsky
quelle
11
n100n.18n=2
4
@whuber: Natürlich hast du recht. Es ist die Varianz (SD im Quadrat), die sich nicht vorhersehbar ändert, wenn Sie weitere Daten hinzufügen. Die SD wird mit zunehmender Sample-Größe etwas größer, insbesondere wenn Sie mit winzigen Samples beginnen. Diese Änderung ist im Vergleich zu der Änderung im REM bei Änderungen der Probengröße winzig.
Harvey Motulsky
@ HarveyMotulsky: Warum steigt der sd?
Andrew
Bei großen Stichproben liegt die Stichprobenvarianz ziemlich nahe an der Populationsvarianz, sodass die Stichproben-SD nahe an der Populations-SD liegt. Bei kleineren Stichproben entspricht die Stichprobenvarianz im Durchschnitt der Populationsvarianz, die Abweichungen sind jedoch größer. Wenn sie als Varianzen symmetrisch sind, sind sie als SD asymmetrisch. Beispiel: Die Populationsvarianz beträgt 100. Zwei Stichprobenvarianzen sind 80 oder 120 (symmetrisch). Die Beispiel-SD sollte 10 sein, wird aber 8,94 oder 10,95 sein. Durchschnittliche Stichproben-SDs aus einer symmetrischen Verteilung um die Populationsvarianz, und die mittlere SD wird niedrig sein, mit niedrigem N.
Harvey Motulsky,
43

θX={X1,,Xn}θθ^(X)θ^(X)XX~θ^(X~)θ^(X)θ^θ^(X)θ^

Ocram
quelle
1
Ist der Standardfehler der Schätzung gleich der Standardabweichung der geschätzten Variablen?
Yurii
6

(Beachten Sie, dass ich mich auf den Standardfehler des Mittelwerts konzentriere, was meines Erachtens auch der Fragesteller war, aber Sie können für jede Stichprobenstatistik einen Standardfehler generieren.)

Der Standardfehler hängt mit der Standardabweichung zusammen, aber sie sind nicht dasselbe, und durch die Vergrößerung der Stichprobe rücken sie nicht näher zusammen. Eher macht es sie weiter auseinander. Die Standardabweichung der Stichprobe nähert sich mit zunehmender Stichprobengröße der Populationsstandardabweichung an, nicht jedoch der Standardabweichung.

Manchmal ist die Terminologie ein bisschen zu dick, um durchzukommen.

Wenn Sie eine Stichprobe erfassen und die Standardabweichung dieser Stichprobe berechnen, wird die Schätzung der Standardabweichung mit zunehmender Stichprobengröße immer genauer. Nach Ihrer Frage haben Sie anscheinend darüber nachgedacht. Bedenken Sie aber auch, dass der Mittelwert der Stichprobe im Durchschnitt eher dem Bevölkerungsmittelwert entspricht. Dies ist entscheidend für das Verständnis des Standardfehlers.

Der Standardfehler handelt davon, was passieren würde, wenn Sie mehrere Proben einer bestimmten Größe erhalten würden. Wenn Sie eine Stichprobe von 10 nehmen, können Sie eine Schätzung des Mittelwerts erhalten. Dann nehmen Sie eine weitere Stichprobe von 10 und eine neue mittlere Schätzung und so weiter. Die Standardabweichung des Mittels dieser Stichproben ist der Standardfehler. Angesichts der Tatsache, dass Sie Ihre Frage gestellt haben, können Sie jetzt wahrscheinlich feststellen, dass der Standardfehler geringer ist, wenn N hoch ist, da die Wahrscheinlichkeit geringer ist, dass die Mittelwerte der Stichproben stark vom tatsächlichen Wert abweichen.

Für manche klingt das wunderbar, wenn man bedenkt, dass Sie dies aus einer Stichprobe berechnet haben. Sie könnten also einen Standardfehler durch Simulation booten, um die Beziehung zu demonstrieren. In R würde das so aussehen:

# the size of a sample
n <- 10
# set true mean and standard deviation values
m <- 50
s <- 100

# now generate lots and lots of samples with mean m and standard deviation s
# and get the means of those samples. Save them in y.
y <- replicate( 10000, mean( rnorm(n, m, s) ) )
# standard deviation of those means
sd(y)
# calcuation of theoretical standard error
s / sqrt(n)

Sie werden feststellen, dass diese beiden letzten Befehle (ungefähr) dieselbe Zahl erzeugen. Sie können die Werte für n, m und s variieren und sie kommen sich immer ziemlich nahe.

John
quelle
Ich fand das sehr hilfreich, danke für das Posten. Wäre es dann fair, den Standardfehler als "Standardabweichung der Stichprobenverteilung" zu bezeichnen? Befindet sich die Sampling-Verteilung in Ihrem obigen Codeblock? Das hat mich verwirrt, die Stichprobenparameter sd und mean mit den Stichprobenverteilungsparametern zu verschmelzen.
Doug Fir
1
Wenn Sie Ihre Formulierung ändern, um Beispielmittel für diesen Fall anzugeben, ja.
John