Frage zur Normalitätsannahme des t-Tests

9

Bei T-Tests wird nach den meisten Texten davon ausgegangen, dass die Bevölkerungsdaten normal verteilt sind. Ich verstehe nicht, warum das so ist. Erfordert ein T-Test nicht nur, dass die Stichprobenverteilung der Stichprobenmittel normal verteilt ist und nicht die Population?

Wenn der T-Test letztendlich nur eine Normalität in der Stichprobenverteilung erfordert, kann die Population wie eine Verteilung aussehen, oder? Solange es eine vernünftige Stichprobengröße gibt. Ist es nicht das, was der zentrale Grenzwertsatz besagt?

(Ich beziehe mich hier auf T-Tests mit einer oder unabhängigen Stichproben)

Peter Nash
quelle
1
Nun, der Stichprobenmittelwert als Zufallsvariable kann nur normal sein, wenn die einzelnen Teile ebenfalls normal sind. Aber Sie haben Recht: Der t-Test ist asymptotisch nichtparametrisch (keine Normalverteilung), aber dennoch sollten die Abweichungen innerhalb der Gruppe (in der Situation mit zwei Stichproben) ähnlich und vorhanden sein.
Michael M
Beziehen Sie sich bei ähnlichen gruppeninternen Varianzen auf die Annahme der Homogenität der Varianz? Wenn ja, ist der Welch-T-Test dafür richtig, richtig?
Peter Nash
Ja genau. Wenn die korrigierten Freiheitsgrade des Welch ins Unendliche gehen, wäre auch sein Verfahren verteilungsfrei (Zitieren jedoch erforderlich ...).
Michael M

Antworten:

9

Bei T-Tests wird nach den meisten Texten davon ausgegangen, dass die Bevölkerungsdaten normal verteilt sind. Ich verstehe nicht, warum das so ist. Erfordert ein T-Test nicht nur, dass die Stichprobenverteilung der Stichprobenmittel normal verteilt ist und nicht die Population?

Die t-Statistik besteht aus einem Verhältnis zweier Größen, beide Zufallsvariablen. Es besteht nicht nur aus einem Zähler.

Damit die t-Statistik die t-Verteilung hat, muss nicht nur der Stichprobenmittelwert eine Normalverteilung haben. Du brauchst ausserdem:

  • dass das im Nenner so ist, dass s 2 / σ 2χ 2 d *ss2/σ2χd2

  • dass der Zähler und der Nenner unabhängig sind.

* (der Wert von hängt davon ab, welcher Test - in der Einstichprobe t haben wir d = n - 1 )dtd=n1

Damit diese drei Dinge tatsächlich zutreffen, müssen die Originaldaten normal verteilt sein.

Wenn der T-Test letztendlich nur eine Normalität in der Stichprobenverteilung erfordert, kann die Population wie eine Verteilung aussehen, oder?

Nehmen wir für einen Moment iid als gegeben. Damit das CLT die Bevölkerung hält, muss es den Bedingungen entsprechen ... - Die Bevölkerung muss eine Verteilung haben, für die das CLT gilt. Also nein, da es Bevölkerungsverteilungen gibt, für die das CLT nicht gilt.

Solange es eine vernünftige Stichprobengröße gibt. Ist es nicht das, was der zentrale Grenzwertsatz besagt?

Nein, das CLT sagt eigentlich kein einziges Wort über "angemessene Stichprobengröße".

Es sagt eigentlich gar nichts darüber aus, was bei einer endlichen Stichprobengröße passiert.

n=1015n


Sie haben also zwei Probleme:

A. Der Effekt, den Menschen normalerweise der CLT zuschreiben - die zunehmend engere Annäherung an die Normalität der Verteilung der Stichprobenmittel bei kleinen / mittleren Stichprobengrößen - ist in der CLT ** nicht angegeben.

B. "Etwas, das im Zähler nicht so weit vom Normalen entfernt ist" reicht nicht aus, um die Statistik mit einer t-Verteilung zu erhalten

** (Etwas wie das Berry-Esseen-Theorem lässt Sie eher sehen, was die Leute sehen, wenn sie die Auswirkung einer Erhöhung der Stichprobengröße auf die Verteilung der Stichprobenmittel betrachten.)


nn

Glen_b - Monica neu starten
quelle
1
Damit diese drei Dinge [Normalität des Stichprobenmittelwerts, Chi-Rechtwinkligkeit der Stichprobenvarianz und Unabhängigkeit der beiden] tatsächlich zutreffen, müssen die Originaldaten normal verteilt sein. Wollen Sie damit sagen, dass nur das Normale diese drei Eigenschaften hat? Ich behaupte nicht, dass die Aussage falsch ist, nur neugierig, ob Sie das sagen.
Andrew M
2
@ AndrewM Sicherlich hat nur der Normale alle drei zusammen. Außerdem reicht die erste oder die dritte allein aus, um die Normalität zu implizieren - die dritte charakterisiert die Normalität ( Lukacs, 1942 ), und für eine endliche Anzahl unabhängiger Zufallsvariablen hat nur die Normalen die erste ( Cramérs Zerlegungssatz ). Es ist denkbar, dass es einen anderen Weg gibt, um den zweiten zu bekommen, aber mir ist keiner bekannt.
Glen_b -Reinstate Monica
@ AndrewM in Bezug auf die zweite, kann die Arbeit von Ahsanullah (1987, 1989) relevant sein.
Glen_b -State Monica
1
XAXA
@ AndrewM Der Unterschied ist das Ergebnis, das Sie dort zitieren, das nicht von der Unabhängigkeit abhängt, während das Ergebnis von Cramer dies tut. Sie sind beide an ihrer Stelle nützlich.
Glen_b -Reinstate Monica