Beruht die Verwendung der Standardabweichung auf der Annahme einer Normalverteilung?

9

Ich frage mich, ob die Standardabweichung immer unter der Annahme einer Normalverteilung erstellt wurde. Mit anderen Worten, wenn die Stichprobe nicht normal verteilt ist, sollte die Verwendung der Standardabweichung dann als Fehler angesehen werden?

Dougal
quelle
3
Eine gleichmäßige Verteilung hat eine Standardabweichung. Wie könnte dies ein "Fehler" sein?

Antworten:

17

Nein. Die Verwendung der Standardabweichung setzt keine Normalität voraus.

Die Varianz einer Zufallsvariablen ist definiert als . Solange die Varianz existiert, existiert auch die Standardabweichung. Die Standardabweichung ist die Quadratwurzel der Varianz.Var(X)=E[(XE[X])2]

Sie können die Varianz oder die Standardabweichung jederzeit verwenden, wenn beide vorhanden sind. Die Varianz tritt in unzähligen Situationen auf.Var(X)

Es gibt spezielle Theoreme, Lemmas usw., obwohl für den speziellen Fall, in dem der Normalverteilung folgt.X

Eine häufige Verwendung der Standardabweichung, die von der Normalität abhängt:

Wenn der Normalverteilung folgt, besteht eine Wahrscheinlichkeit von ungefähr 95%, dass innerhalb von zwei Standardabweichungen vom Mittelwert liegt.XX

Diese Aussage ist wahr, wenn der Normalverteilung (und mehreren anderen) folgt, aber im Allgemeinen nicht wahr.X

Eine häufige Verwendung der Varianz, die nicht von der Normalität abhängt:

Sei eine Zufallsvariable mit dem Mittelwert und der Varianz . Definieren Sie für als unabhängige Zufallsvariablen, die jeweils der identischen Verteilung wie folgen .XE[X]=μVar(X)=σ2Xii=1,,nX

Definieren Sie den Stichprobenmittelwert basierend auf Beobachtungen als: n

X¯n=1ni=1nXi

Nach dem zentralen Grenzwertsatz konvergiert gegen eine normalverteilte Zufallsvariable mit dem Mittelwert und der Varianz . (Genauer gesagt konvergiert in der Verteilung zu als .)X¯nμσ2nn(X¯nμ)N(0,σ2)n

Die praktische Implikation ist, dass der Stichprobenmittelwert für großes als normalverteilte Zufallsvariable behandelt werden kann, deren Varianz eine Funktion der Varianz von . (Recall ) Für dieses Ergebnis muss nicht normal sein. (Es erfordert ein niedrigeres , um gut zu funktionieren, wenn in gewissem Sinne näher an der Normalverteilung liegt.)X¯nnσ2nXVar(X)=σ2XnX

Der zentrale Grenzwertsatz ist ein allgegenwärtiges Tool, das die Varianz verwendet und nicht braucht die Normalverteilung zu folgen.XX

Matthew Gunn
quelle
4
Chebyshevs Ungleichung ist nicht spezifisch für die Varianz: Für jeden absoluten Moment existiert eine ebenso nützliche Version mit einer Potenz größer als . Ich würde daher vorschlagen, anderswo nach Gründen zu suchen, warum die SD wichtig und (fast) universell ist, wie zum Beispiel die einzigartige Rolle, die die Varianz im zentralen Grenzwertsatz spielt. 1
whuber
@whuber Ja, ich hatte angefangen, ein CLT-Beispiel zu schreiben (und jetzt habe ich es hinzugefügt). Das CLT ist ein äußerst praktischer Grund, sich um die Varianz zu kümmern.
Matthew Gunn
1
+1. Beachten Sie jedoch, dass die Varianz (zusammen mit dem Mittelwert) im Normalfall eine vollständige Beschreibung liefert, bei nicht normaler Verteilung dies jedoch möglicherweise nicht mehr der Fall ist und andere d3-Skriptoren der Daten möglicherweise viel besser sind
kjetil b halvorsen
2

In der Standard-IID-Einstellung ist (sowie ) unter geeigneten Regelmäßigkeitsbedingungen ein stark konsistenter Schätzer für . Dies folgt direkt aus dem starken Gesetz der großen Zahlen. Eine normale Modellannahme ist nicht erforderlich.S2σ^ML2Var[Xi]

Zen
quelle