Warum normalisiert sich die t-Verteilung mit zunehmender Stichprobengröße?

19

Gemäß Wikipedia ist die t-Verteilung meines Wissens die Stichprobenverteilung des t-Werts, wenn die Stichproben Beobachtungen einer normalverteilten Population sind. Ich verstehe jedoch nicht intuitiv, warum sich dadurch die Form der t-Verteilung von fettschwänzig zu fast vollkommen normal ändert.

Ich verstehe, dass, wenn Sie aus einer Normalverteilung probieren, eine große Stichprobe dieser Verteilung ähnelt, aber ich verstehe nicht, warum sie mit der fettschwanzigen Form beginnt, die sie hat.

user1205901 - Setzen Sie Monica wieder ein
quelle

Antworten:

22

Ich werde versuchen, eine intuitive Erklärung zu geben.

Die t-Statistik * hat einen Zähler und einen Nenner. Zum Beispiel ist die Statistik in der einen Stichprobe t-Test

x¯μ0s/n

* (es gibt mehrere, aber diese Diskussion sollte hoffentlich allgemein genug sein, um diejenigen abzudecken, nach denen Sie fragen)

Unter diesen Voraussetzungen hat der Zähler eine Normalverteilung mit dem Mittelwert 0 und einer unbekannten Standardabweichung.

Unter den gleichen Annahmen ist der Nenner eine Schätzung der Standardabweichung der Verteilung des Zählers (der Standardfehler der Statistik auf dem Zähler). Es ist unabhängig vom Zähler. Sein Quadrat ist eine Chi-Quadrat-Zufallsvariable geteilt durch seine Freiheitsgrade (die auch df der t-Verteilung sind) mal .σnumerator

Wenn die Freiheitsgrade klein sind, neigt der Nenner dazu, ziemlich schief zu sein. Es hat eine hohe Wahrscheinlichkeit, kleiner als der Durchschnitt zu sein, und eine relativ gute Chance, ziemlich klein zu sein. Gleichzeitig hat es auch eine gewisse Chance, viel, viel größer als sein Durchschnitt zu sein.

Unter der Annahme der Normalität sind Zähler und Nenner unabhängig. Wenn wir also zufällig aus der Verteilung dieser t-Statistik ziehen, haben wir eine normale Zufallszahl geteilt durch einen zweiten zufällig * gewählten Wert aus einer Verteilung mit rechter Neigung, die im Durchschnitt bei 1 liegt.

* ohne Rücksicht auf die normale Laufzeit

Weil es auf dem Nenner liegt, erzeugen die kleinen Werte in der Verteilung des Nenners sehr große t-Werte. Der rechte Versatz im Nenner macht die t-Statistik schwerfällig. Das rechte Ende der Verteilung, wenn es auf dem Nenner liegt, bewirkt, dass die t-Verteilung mit der gleichen Standardabweichung wie das t einen schärferen Peak aufweist als eine Normale .

Wenn jedoch die Freiheitsgrade groß werden, sieht die Verteilung viel normaler aus und ist um ihren Mittelwert "enger".

Bildbeschreibung hier eingeben

Somit nimmt die Wirkung der Division durch den Nenner auf die Form der Verteilung des Zählers mit zunehmenden Freiheitsgraden ab.

Letztendlich - wie Slutskys Theorem vielleicht nahelegt - wird der Effekt des Nenners eher wie eine Division durch eine Konstante und die Verteilung der t-Statistik ist sehr normal.


Betrachtet als Kehrwert des Nenners

whuber schlug in Kommentaren vor, dass es aufschlussreicher sein könnte, den Kehrwert des Nenners zu betrachten. Das heißt, wir könnten unsere t-Statistiken als Zähler (normal) mal Reziprok-Nenner (Rechts-Versatz) schreiben.

Zum Beispiel würde unsere obige One-Sample-T-Statistik lauten:

n(x¯μ0)1/s

Xiσx

n(x¯μ0)/σxσx/s

Der erste Term ist normal. Der zweite Term (die Quadratwurzel einer skalierten inversen Chi-Quadrat-Zufallsvariablen) skaliert diese Norm dann um Werte, die entweder größer oder kleiner als 1 sind, und "verteilt sie".

Unter der Annahme der Normalität sind die beiden Begriffe im Produkt unabhängig. Wenn wir also zufällig aus der Verteilung dieser t-Statistik ziehen, haben wir eine normale Zufallszahl (den ersten Term im Produkt) mal einen zweiten zufällig gewählten Wert (ohne Berücksichtigung des normalen Terms) aus einer Verteilung mit rechter Abweichung, die ' typisch 'um 1.

Wenn die df groß sind, liegt der Wert in der Regel nahe bei 1, aber wenn die df klein sind, ist sie ziemlich schief und die Spreizung ist groß, wobei der große rechte Schwanz dieses Skalierungsfaktors den Schwanz ziemlich fett macht:

Bildbeschreibung hier eingeben

Glen_b - Setzen Sie Monica wieder ein
quelle
Vielen Dank! Dies hat vieles geklärt, aber ich war mir immer noch ein wenig unsicher in Bezug auf "Sein Quadrat ist eine Chi-Quadrat-Zufallsvariable geteilt durch seine Freiheitsgrade (die auch die df der t-Verteilung sind) mal [die Standardabweichung des] Zählers ". Haben Sie das nur erwähnt, weil es nützlich war, es zu wissen, oder ist es von direkter Relevanz für die Antwort auf meine Frage? Ich verstehe, dass es die Verteilung des Nenners ist, im Gegensatz zu der Verteilung des Quadrats des Nenners, die in Ihrer Figur dargestellt ist.
user1205901
2
Die Verteilung der Statistik wäre schwerer als normal, selbst wenn es sich nicht speziell um die Quadratwurzel eines Chi-Quadrats auf seiner df handeln würde. in diesem Sinne würde es die Antwort nicht direkt ändern, um sie wegzulassen. Zumindest dient es aber als Erklärung dafür, woher die skalierten Chi-Verteilungen im Diagramm stammen.
Glen_b -Reinstate Monica
3
Ich denke, es könnte etwas aufschlussreicher sein, diese Analyse auf der Grundlage des Kehrwerts der Standardabweichung der Stichprobe durchzuführen . Zusammen mit dem Argument, dass die Stichproben-SD unabhängig vom Stichprobenmittelwert ist (eine Schlüsselidee, die von einer etwas stärkeren Betonung und Erläuterung profitieren würde, IMHO), würde dies den Menschen helfen, zu erkennen, dass die Unterteilung des Stichprobenmittelwerts durch die Stichproben-SD erforderlich ist verbreiten, was sonst eine Normalverteilung wäre. (Dies war natürlich der
springende
1
@whuber Ich habe einen Abschnitt hinzugefügt, in dem es um das Wechselseitige geht, aber auch die ursprüngliche Diskussion beibehalten wurde (es scheint mir direkter zu sein, aber ich schätze, dass viele Leute im Hinblick auf das Wechselseitige möglicherweise mehr davon haben). . Ich werde auch ein wenig auf die Unabhängigkeit hinzufügen
Glen_b
1
s/nσ/ns/σσ/sσ
8

@ Glen_b gab Ihnen eine Vorstellung davon, warum die t-Statistik mit zunehmender Stichprobengröße normaler aussieht. Jetzt werde ich Ihnen eine etwas technischere Erklärung für den Fall geben, dass Sie die Verteilung der Statistik bereits erhalten haben.

n1n

(1+x2n1)n/2n1B(n12,12).

Das kann man zeigen

1n1B(n12,12)12π,

und

(1+x2n1)n/2exp(x2/2),

n

Kruger
quelle
2
1/n(1+(x/n)2)1tnFreiheitsgrade? Es möchte wissen, warum die Sequenz "mit der Fettschwanzform beginnt, die sie hat".
whuber
2
nn
2

Ich wollte nur etwas mitteilen, das meiner Intuition als Anfänger geholfen hat (obwohl es weniger streng ist als die anderen Antworten).

Z,Z1,...,Zn

ZZ12+...+Zn2n

n

n1Zn

E[Z2]=1nZi2nZi2

nZ1=Z

HJ_Anfänger
quelle