Ich versuche die Idee hinter der T-Distribution zu verstehen. Hier sind die Schritte, die ich bisher verstanden habe:
- Wir verwenden eine Stichprobe von N Elementen, um den Populationsmittelwert abzuschätzen. Im Detail verwenden wir den Stichprobenmittelwert als Schätzung des Populationsmittelwerts.
- Wir wollen wissen, wie nahe unsere Schätzung am realen Wert liegt. Oder genauer gesagt, wir möchten wissen, wie groß das Intervall um den Stichprobenmittelwert sein sollte, damit wir sagen können, dass der Populationsmittelwert mit einer bestimmten Wahrscheinlichkeit innerhalb dieses Intervalls liegt.
- Um diese Frage zu beantworten, nehmen wir an, dass die Werte in der Population gemäß einer Normalverteilung mit einem bekannten Mittelwert und einer bekannten Standardabweichung verteilt sind.
- Mit den Parametern der Verteilung der Werte in der Population können wir die Verteilung des Stichprobenmittelwerts als Funktion der Populationsverteilung und der Größe der Stichprobe berechnen.
- Wir können zeigen, dass die Verteilung des Stichprobenmittelwerts auch eine Normalverteilung mit dem gleichen Mittelwert wie die Populationsverteilung und Standardabweichung ist, die durch die folgende Formel , wobei die Größe der Stichprobe ist .
- Mit der Verteilung des Stichprobenmittelwerts können wir leicht die Wahrscheinlichkeit berechnen, dass der Stichprobenmittelwert durch X vom realen Mittelwert getrennt ist. Mit anderen Worten, wir können die Wahrscheinlichkeit berechnen, dass der Populationsmittelwert innerhalb eines bestimmten Intervalls um den Stichprobenmittelwert liegt .
- Es ist fast das, was wir brauchen. Das einzige Problem ist, dass wir in realen Umgebungen die Standardabweichung der Bevölkerungsverteilung oft nicht kennen (und dies ist der Parameter, der bestimmt, wie unser Stichprobenmittelwert um den Bevölkerungsmittelwert verteilt ist).
- Was wir tun können, ist, die Populationsstandardabweichung durch die Stichprobenstandardabweichung zu ersetzen. Mit anderen Worten, wir ersetzen den genauen und unbekannten Parameter durch unsere ungefähre Schätzung.
Hier bin ich also bisher. Indem wir die STD der Population durch STD der Stichprobe ersetzen, verschlechtern wir unsere Schätzung der Verteilung des Stichprobenmittelwerts. Und um diesen "falschen" Wert der Verteilungsparameter zu "kompensieren", ändern wir die Verteilungsform (wir sagen, es ist keine Normalverteilung mehr, es ist eine t-Verteilung). Aber was genau ist nach der t-Verteilung verteilt? Wenn wir die STD der Bevölkerung kennen, wissen wir, wie sich der Stichprobenmittelwert um den Populationsmittelwert verteilt. Jetzt kennen wir die STD der Bevölkerung nicht, aber sie ändert nichts an der Verteilung des Stichprobenmittelwerts um den Bevölkerungsmittelwert!
X_n
wir nicht über den Stichprobenmittelwert ( ), sondern über den "standardisierten Mittelwert" sprechen. Wir können sagen, dass die Verteilung des standardisierten Mittelwerts normal ist, wobei der Mittelwert Null und die STD gleich 1 sind. Nein, wir haben eine andere Variable definiert, indem wir die Populations-STD durch die Stichproben-STD ersetzt haben, und sagen, dass diese neue Variable gemäß der t-Verteilung verteilt ist. OK. Das Letzte, was ich nicht verstehe, ist, warum wir den Populationsmittelwert nicht durch den Stichprobenmittelwert ersetzen. Wenn wir Sigma nicht kennen, kennen wir wahrscheinlich auch das Mu nicht.