Was ist genau nach t-Verteilung verteilt?

8

Ich versuche die Idee hinter der T-Distribution zu verstehen. Hier sind die Schritte, die ich bisher verstanden habe:

  1. Wir verwenden eine Stichprobe von N Elementen, um den Populationsmittelwert abzuschätzen. Im Detail verwenden wir den Stichprobenmittelwert als Schätzung des Populationsmittelwerts.
  2. Wir wollen wissen, wie nahe unsere Schätzung am realen Wert liegt. Oder genauer gesagt, wir möchten wissen, wie groß das Intervall um den Stichprobenmittelwert sein sollte, damit wir sagen können, dass der Populationsmittelwert mit einer bestimmten Wahrscheinlichkeit innerhalb dieses Intervalls liegt.
  3. Um diese Frage zu beantworten, nehmen wir an, dass die Werte in der Population gemäß einer Normalverteilung mit einem bekannten Mittelwert und einer bekannten Standardabweichung verteilt sind.
  4. Mit den Parametern der Verteilung der Werte in der Population können wir die Verteilung des Stichprobenmittelwerts als Funktion der Populationsverteilung und der Größe der Stichprobe berechnen.
  5. Wir können zeigen, dass die Verteilung des Stichprobenmittelwerts auch eine Normalverteilung mit dem gleichen Mittelwert wie die Populationsverteilung und Standardabweichung ist, die durch die folgende Formel , wobei die Größe der Stichprobe ist .s=σ/NN
  6. Mit der Verteilung des Stichprobenmittelwerts können wir leicht die Wahrscheinlichkeit berechnen, dass der Stichprobenmittelwert durch X vom realen Mittelwert getrennt ist. Mit anderen Worten, wir können die Wahrscheinlichkeit berechnen, dass der Populationsmittelwert innerhalb eines bestimmten Intervalls um den Stichprobenmittelwert liegt .
  7. Es ist fast das, was wir brauchen. Das einzige Problem ist, dass wir in realen Umgebungen die Standardabweichung der Bevölkerungsverteilung oft nicht kennen (und dies ist der Parameter, der bestimmt, wie unser Stichprobenmittelwert um den Bevölkerungsmittelwert verteilt ist).
  8. Was wir tun können, ist, die Populationsstandardabweichung durch die Stichprobenstandardabweichung zu ersetzen. Mit anderen Worten, wir ersetzen den genauen und unbekannten Parameter durch unsere ungefähre Schätzung.

Hier bin ich also bisher. Indem wir die STD der Population durch STD der Stichprobe ersetzen, verschlechtern wir unsere Schätzung der Verteilung des Stichprobenmittelwerts. Und um diesen "falschen" Wert der Verteilungsparameter zu "kompensieren", ändern wir die Verteilungsform (wir sagen, es ist keine Normalverteilung mehr, es ist eine t-Verteilung). Aber was genau ist nach der t-Verteilung verteilt? Wenn wir die STD der Bevölkerung kennen, wissen wir, wie sich der Stichprobenmittelwert um den Populationsmittelwert verteilt. Jetzt kennen wir die STD der Bevölkerung nicht, aber sie ändert nichts an der Verteilung des Stichprobenmittelwerts um den Bevölkerungsmittelwert!

römisch
quelle

Antworten:

7

Sie sind sehr nah ...

Wenn ist eine Probe IId normaler Beobachtungen mit mittlerem und Varianz , dann ist der standardisierte mittlere ist , Standard normal. Nun, wie Sie betonten, kennen wir in Wirklichkeit nie . Also ersetzen wir durch seine Stichprobenschätzung und betrachten stattdessen den "studentisierten" Mittelwert . Diese Zufallsvariable unterscheidet sich geringfügig von der obigen. Folglich ist seine Verteilung etwas nicht normal, nämlich Student mit Freiheitsgraden.X1,,Xnμσ2

X¯nμσ/n
σσS
T=X¯nμS/n
n1

Für nicht zu kleines liegt nahe an (das ist die Konsistenz der Standardabweichung der Stichprobe). Dann liegt der standardisierte Mittelwert sehr nahe am studentisierten. Dies erklärt, warum die Schülerverteilung mit vielen Freiheitsgraden wie normal aussieht.nSσ

Der studentisierte Mittelwert ist der Ausgangspunkt, um Konfidenzintervalle und Hypothesentests für abzuleiten .μ

Beispiel : Um eine untere 95% -Konfidenzgrenze für , lösen Sie die folgende Gleichung für . Dazu versuchen Sie, die Gleichung in der Wahrscheinlichkeit so zu ändern, dass der studentisierte Mittelwert angezeigt wird (versuchen Sie, die Teilschritte herauszufinden): Dann verwenden Sie die Tatsache, dass eine Student-Verteilung mit df hat, um die Wahrscheinlichkeit loszuwerden: wobei ist das entsprechende 95% -Quantil. Somit ist X¯ncμ

P(X¯ncμ)=0.95
c
P(TcS/n)=0.95.
Tn1
cS/n=qt0.95;n1,
qt0.95;n1
c=Snqt0.95;n1
und die (berühmte) untere Konfidenzgrenze folgt:
X¯nSnqt0.95;n1
Michael M.
quelle
Dies bedeutet, dass X_nwir nicht über den Stichprobenmittelwert ( ), sondern über den "standardisierten Mittelwert" sprechen. Wir können sagen, dass die Verteilung des standardisierten Mittelwerts normal ist, wobei der Mittelwert Null und die STD gleich 1 sind. Nein, wir haben eine andere Variable definiert, indem wir die Populations-STD durch die Stichproben-STD ersetzt haben, und sagen, dass diese neue Variable gemäß der t-Verteilung verteilt ist. OK. Das Letzte, was ich nicht verstehe, ist, warum wir den Populationsmittelwert nicht durch den Stichprobenmittelwert ersetzen. Wenn wir Sigma nicht kennen, kennen wir wahrscheinlich auch das Mu nicht.
Roman
Wir machen! Aber die interessantesten Fragen zu wie "In welchem ​​Bereich wird mit hoher Sicherheit sein" (-> Konfidenzintervall) oder " wirklich anders als 0" (-> Hypothesentest) werden unter Verwendung der Tatsache beantwortet, dass die Der studentisierte Mittelwert folgt einer Studentenverteilung. Sie können solche Fragen nicht nur anhand des Kostenvoranschlags beantworten. μμμ
Michael M