Warum eine T-Statistik die Daten benötigt, um einer Normalverteilung zu folgen

11

Ich habe mir dieses Notizbuch angesehen und bin verwirrt über diese Aussage:

Wenn wir über Normalität sprechen, meinen wir, dass die Daten wie eine Normalverteilung aussehen sollten. Dies ist wichtig, da sich mehrere statistische Tests darauf stützen (z. B. t-Statistik).

Ich verstehe nicht, warum eine T-Statistik die Daten benötigt, um einer Normalverteilung zu folgen.

In der Tat sagt Wikipedia dasselbe:

Die t-Verteilung des Schülers (oder einfach die t-Verteilung) ist ein Mitglied einer Familie kontinuierlicher Wahrscheinlichkeitsverteilungen, die bei der Schätzung des Mittelwerts einer normalverteilten Population auftritt

Ich verstehe jedoch nicht, warum diese Annahme notwendig ist.

Nichts aus seiner Formel weist mich darauf hin, dass die Daten einer Normalverteilung folgen müssen:

Geben Sie hier die Bildbeschreibung ein

Ich habe ein bisschen nach seiner Definition gesucht, aber ich verstehe nicht, warum die Bedingung notwendig ist.

Oktavian
quelle

Antworten:

17

Die Informationen, die Sie benötigen, befinden sich im Abschnitt "Charakterisierung" der Wiki-Seite . Eine Verteilung mit Freiheitsgraden ν kann als Verteilung der Zufallsvariablen T definiert werden, so dass T = Z.tνT Wobei Z eine Standardnormalverteilung Zufallsvariable und V ist ein χ 2 Zufallsvariable mit Freiheitsgraden ν . Außerdem müssen Z und V unabhängig sein. Wenn also Z und V der obigen Definition folgen, können Sie zu einer Zufallsvariablen mit einer t- Verteilung gelangen.

T=ZV/ν,
ZVχ2νZVZVt

Angenommen, ist gemäß einer Verteilung F verteilt . Sei F Mittelwert μ und Varianz σ 2 . Sei ˉ X der Stichprobenmittelwert und S 2 die Stichprobenvarianz. Wir werden uns dann die Formeln ansehen:X1,X2,,XnFFμσ2X¯S2

X¯μS/n=X¯μσ/n(n1)S2(n1)σ2.

Wenn die Normalverteilung bezeichnet, dann ist ˉ XN ( μ , σ 2 / n ) und damit ˉ X - μFX¯N(μ,σ2/n). Zusätzlich ist(n-1)S2X¯μσ/nN(0,1) nachCochrans Satz. Schließlich wird durch eine Anwendung vonBasu Theorem, ˉ X undS2sind unabhängig. Dies impliziert dann, dass die resultierende Statistik einet-Verteilung mitn-1Freiheitsgraden aufweist.(n1)S2σ2χn12X¯S2tn1

Wenn die ursprüngliche Datenverteilung nicht normal war, ist die genaue Verteilung des Zählers und des Nenners nicht die Standardnormalen bzw. χ 2 , und daher hat die resultierende Statistik keine t- Verteilung.Fχ2t

Greenparker
quelle
3
Ich fand es immer sehr interessant, wie viel mathematische Technologie in diese grundlegenden Ergebnisse der mathematischen Statistik fließt.
Matthew Drury
3
X¯Sχ2
2

Ich denke, es kann einige Verwechslungen zwischen der Statistik und ihrer Formel im Vergleich zur Verteilung und ihrer Formel geben. Sie können die t-Statistikformel auf jeden Datensatz anwenden und eine "t-Statistik" erhalten. Diese Statistik wird jedoch nicht gemäß der Schüler-t-Verteilung verteilt, es sei denn, die Daten stammen aus einer Normalverteilung (oder zumindest nicht) Ich vermute, dass nicht normale Verteilungen keine Student-t-Verteilung erzeugen, wenn die t-Statistikformel angewendet wird, aber ich bin mir nicht sicher). Der Grund dafür ist einfach, dass die Verteilung der t-Statistik aus der Verteilung der Daten berechnet wird, die sie generiert haben. Wenn Sie also eine andere zugrunde liegende Verteilung haben, ist nicht garantiert, dass Sie dieselbe Verteilung für abgeleitete Statistiken haben.

Akkumulation
quelle