Unabhängiger Stichproben-T-Test: Müssen Daten bei großen Stichproben wirklich normal verteilt werden?

13

Angenommen, ich möchte testen, ob zwei unabhängige Stichproben unterschiedliche Mittelwerte haben. Ich weiß, dass die zugrunde liegende Verteilung nicht normal ist .

Wenn ich das richtig verstehe, ist meine Teststatistik der Mittelwert , und bei ausreichend großen Stichproben sollte der Mittelwert normalverteilt sein, auch wenn die Stichproben nicht vorhanden sind. In diesem Fall sollte also ein parametrischer Signifikanztest gültig sein, oder? Ich habe widersprüchliche und verwirrende Informationen darüber gelesen, daher würde ich mich über eine Bestätigung (oder eine Erklärung, warum ich falsch liege) freuen.

Außerdem habe ich gelesen, dass ich für große Stichproben die Z-Statistik anstelle der T-Statistik verwenden sollte. Aber in der Praxis wird die t-Verteilung einfach zur Normalverteilung konvergieren und die beiden Statistiken sollten gleich sein, oder?

Bearbeiten : Im Folgenden finden Sie einige Quellen, die den Z-Test beschreiben. Beide geben an, dass die Populationen normal verteilt sein müssen:

Hier heißt es: "Unabhängig von der Art des verwendeten Z-Tests wird angenommen, dass die Populationen, aus denen die Proben entnommen wurden, normal sind." Und hier sind die Anforderungen für den z-Test als "Zwei normalverteilte, aber unabhängige Populationen, σ ist bekannt" aufgeführt.

Lisa
quelle
Was Sie sagen, macht Sinn. Sie verwenden den zentralen Grenzwertsatz, um Normalität bei der Verteilung der Stichprobenmittelwerte anzunehmen. Außerdem verwenden Sie den t-Test, weil Sie nicht über die Populationsvarianz verfügen und diese anhand der Stichprobenvarianz schätzen. Aber können Sie eine dieser widersprüchlichen Quellen verlinken oder veröffentlichen?
Antoni Parellada
Danke für deine Antwort! Hier sind zum Beispiel die Anforderungen für den z-Test als "Zwei normalverteilte, aber unabhängige Populationen, σ ist bekannt" aufgeführt, sodass es sich um die Verteilung der Population handelt, nicht um den Mittelwert - ist das falsch?
Lisa
@AntoniParellada Ich habe einige Quellen in den ursprünglichen Beitrag aufgenommen!
Lisa
Überprüfen Sie auf Wikipedia
Antoni Parellada
Wenn bekannt ist, dass die ursprünglichen Populationen normal sind, haben wir eine perfekte, unbestreitbare Situation. Die CLT ist jedoch häufig vorhanden, insbesondere bei großen Proben, um zu vermeiden, dass in Abhängigkeit von dieser sehr hohen Reihenfolge von Bedingungen auf Ihrem verknüpften Papier.
Antoni Parellada

Antworten:

7

Ich denke, das ist ein weit verbreitetes Missverständnis der CLT. Die CLT hat nicht nur nichts mit der Beibehaltung des Fehlers vom Typ II zu tun (den hier niemand erwähnt hat), sondern ist häufig auch nicht anwendbar, wenn Sie die Populationsvarianz schätzen müssen. Die Stichprobenvarianz kann sehr weit von einer skalierten Chi-Quadrat-Verteilung entfernt sein, wenn die Daten nicht Gaußsch sind, sodass die CLT möglicherweise nicht angewendet wird, selbst wenn die Stichprobengröße Zehntausende überschreitet. Für viele Distributionen ist die SD nicht einmal ein gutes Maß für die Dispersion.

Um die CLT wirklich nutzen zu können, muss eines von zwei Dingen zutreffen: (1) Die Standardabweichung der Stichprobe dient als Dispersionsmaß für die wahre unbekannte Verteilung, oder (2) die wahre Populationsstandardabweichung ist bekannt. Das ist sehr oft nicht der Fall. Und ein Beispiel dafür, dass n = 20.000 viel zu klein ist, als dass die CLT "funktionieren" könnte, ergibt sich aus dem Zeichnen von Beispielen aus der logarithmischen Normalverteilung, wie an anderer Stelle auf dieser Site erläutert.

Die Standardabweichung der Stichprobe "wirkt" als Dispersionsmaß, wenn beispielsweise die Verteilung symmetrisch ist und keine Schwänze aufweist, die schwerer als die Gaußsche Verteilung sind.

Ich möchte mich bei keiner meiner Analysen auf das CLT verlassen.

Frank Harrell
quelle
3
Der CLT kann ein bisschen wie ein roter Hering sein. Es kann häufig vorkommen, dass der Stichprobenmittelwert eine eindeutig nicht normale Verteilung aufweist und die Stichproben-SD eindeutig nicht Chi-förmig ist, die t-Statistik jedoch zweckmäßigerweise durch eine Student-t-Verteilung approximiert wird (teilweise aufgrund der Abhängigkeit zwischen beiden) Statistiken). Ob dies der Fall ist, sollte in jeder gegebenen Situation bewertet werden. Da die CLT jedoch wenig über endliche Stichproben aussagt (und absolut nichts Quantitatives darüber aussagt ), ist ihr Aufruf zur Unterstützung von Verteilungsannahmen normalerweise ungültig.
whuber
Wäre es fair zu sagen, dass wir ein Verfahren diskutieren (und in meinem Fall lernen) (zwei Stichprobenmittelwerte aus unbekannten Verteilungen mit einem t-Test vergleichen), das routinemäßig (und möglicherweise sinnlos) täglich überall durchgeführt wird, obwohl es das ist Rechtfertigung kann schwach sein? Und gibt es in der Praxis irgendwelche Verwendungen des CLT, die tolerierbar / akzeptabel wären, auch wenn sie nicht ideal wären?
Antoni Parellada
Die Statistik weist sehr oft eine Verteilung auf, die sehr weit von der t- Verteilung entfernt ist, wenn die Daten aus einer nicht-Gaußschen Verteilung stammen. Und ja, ich würde sagen, dass die Begründung für die Verwendung dertt Tests schwächer ist, als die meisten Praktiker glauben. Deshalb bevorzuge ich semi- und nicht parametrische Methoden. t
Frank Harrell
2
Die CLT ist wirklich eine asymptotische Aussage, und wenn die meisten Leute sie aufrufen, vermute ich, dass die Idee in ihrem Kopf wirklich so etwas wie das Berry-Esseen-Theorem ist (sie glauben, dass die Konvergenz zur Normalität mit einer "vernünftigen" Rate stattfindet, und daher mit ihrer Stichprobengröße ist gut genug"). Aber selbst diese etwas differenziertere Argumentation kann zu einer falschen Schlussfolgerung über die Gültigkeit des T-Tests führen. Ich frage mich, ob es in dieser Antwort erwähnenswert / hervorzuheben ist, dass selbst Berry-Esseen den trügerischen Appell an das CLT nicht "rettet".
Silverfish
3
@FrankHarrell Was meinen Sie mit "Die Standardabweichung der Stichprobe dient als Maß für die Streuung für die wahre unbekannte Verteilung"? Es wäre hilfreich, wenn Sie Ihrer Antwort eine kurze Erklärung (möglicherweise nur einen Satz) hinzufügen würden.
mark999
9

Ich lasse diesen Absatz, damit die Kommentare einen Sinn ergeben: Wahrscheinlich ist die Annahme der Normalität in den ursprünglichen Populationen zu restriktiv und es kann darauf verzichtet werden, sich auf die Stichprobenverteilung und dank des zentralen Grenzwertsatzes insbesondere für große Stichproben zu konzentrieren.

Die Anwendung des Tests ist wahrscheinlich eine gute Idee, wenn Sie (wie gewöhnlich) die Populationsvarianz nicht kennen und stattdessen die Stichprobenvarianzen als Schätzer verwenden. Man beachte , dass die Annahme identischer Abweichungen müssen mit einem F - Test von Abweichungen oder einem Lavene Test getestet werden , bevor eine gepoolte Varianz Anwendung - ich habe einige Hinweise auf GitHub hiert .

Wie Sie bereits erwähnt haben, konvergiert die t-Verteilung mit zunehmender Stichprobe zur Normalverteilung, wie dieses schnelle R-Diagramm zeigt:

Bildbeschreibung hier eingeben

In Rot ist das PDF einer Normalverteilung und in Lila können Sie die fortschreitende Änderung in den "fetten Schwänzen" (oder schwereren Schwänzen) des PDFs des t Verteilung sehen, wenn die Freiheitsgrade zunehmen, bis sie sich schließlich mit der Verteilung vermischen normale Handlung.

Daher ist die Anwendung eines Z-Tests bei großen Stichproben wahrscheinlich in Ordnung.


Behebung der Probleme mit meiner ersten Antwort. Vielen Dank, Glen_b, für Ihre Hilfe beim OP (die wahrscheinlichen neuen Interpretationsfehler liegen ganz bei mir).

  1. DIE T-STATISTIK FOLGT UNTER NORMALITÄTSANNAHME BEI ​​VERTEILUNG:

Abgesehen von den Komplexitäten in den Formeln für eine Stichprobe vs. zwei Stichproben (gepaart und ungepaart) ist die allgemeine Statistik, die sich auf den Fall konzentriert , dass ein Stichprobenmittelwert mit einem Populationsmittelwert verglichen wird, wie folgt:

(1)t-test=X¯μsn=X¯μσ/ns2σ2=X¯μσ/nx=1n(XX¯)2n1σ2

Xμσ2 :

  1. (1) N(1,0) .
  2. (1)s2/σ2n11n1χn12(n1)s2/σ2χn12
  3. Zähler und Nenner sollten unabhängig sein.

t-Statistikt(df=n-1)

  1. Zentraler Grenzwertsatz:

Die Tendenz zur Normalität der Stichprobenverteilung des Stichprobenmittels bei zunehmender Stichprobengröße kann die Annahme einer Normalverteilung des Zählers rechtfertigen, auch wenn die Grundgesamtheit nicht normal ist. Die beiden anderen Bedingungen (Chi-Quadrat-Verteilung des Nenners und Unabhängigkeit des Zählers vom Nenner) werden jedoch nicht beeinflusst.

Aber nicht alles ist verloren. In diesem Beitrag wird diskutiert, wie der Slutzky-Satz die asymptotische Konvergenz zu einer Normalverteilung unterstützt, auch wenn die Chi-Verteilung des Nenners nicht erfüllt ist.

  1. ROBUSTHEIT:

Auf dem Papier "Ein realistischerer Blick auf die Robustheit und die Fehlereigenschaften des Typs II des t-Tests auf Abweichungen von der Populationsnormalität" von Sawilowsky SS und Blair RC in Psychological Bulletin, 1992, Vol. 2, 352-360 , wo sie weniger ideale oder mehr "reale" (weniger normale) Verteilungen auf Leistung und auf Typ-I-Fehler testeten, können die folgenden Behauptungen gefunden werden: "Trotz des konservativen Charakters in Bezug auf Typ Wenn der t-Test für einige dieser realen Verteilungen fehlerhaft ist, war der Einfluss auf die Leistungspegel für die verschiedenen Behandlungsbedingungen und untersuchten Probengrößen gering. Die Forscher können den geringen Leistungsverlust leicht durch Auswahl einer etwas größeren Probengröße ausgleichen. .

" Die vorherrschende Meinung scheint zu sein , dass der unabhängigen Stichproben t - Test recht robust ist, sind soweit Typ I Fehler betrifft, zu nicht-Gauß - Population Form so lange wie (a) Stichprobengrößen sind gleich oder fast so, (b) Probe Die Testgrößen sind relativ groß (Boneau, 1960, nennt Stichprobengrößen von 25 bis 30), und (c) Tests sind eher zweiseitig als einseitig. Beachten Sie auch, dass Unterschiede zwischen nominalem Alpha und tatsächlichem Alpha auftreten, wenn diese Bedingungen erfüllt sind auftreten, sind Diskrepanzen in der Regel eher konservativer als liberaler Natur. "

Die Autoren betonen die kontroversen Aspekte des Themas und ich freue mich darauf, an einigen Simulationen zu arbeiten, die auf der von Professor Harrell erwähnten logarithmischen Normalverteilung basieren. Ich möchte auch einige Monte-Carlo-Vergleiche mit nichtparametrischen Methoden anstellen (z. B. Mann-Whitney-U-Test). Es ist also noch in Arbeit ...


SIMULATIONEN:

Haftungsausschluss: Was folgt, ist eine dieser Übungen, um es auf die eine oder andere Weise selbst zu beweisen. Die Ergebnisse können nicht für Verallgemeinerungen verwendet werden (zumindest nicht von mir), aber ich denke, ich kann sagen, dass diese beiden (wahrscheinlich fehlerhaften) MC-Simulationen hinsichtlich der Verwendung des t-Tests unter den gegebenen Umständen nicht zu entmutigend erscheinen beschrieben.

Typ I-Fehler:

n=50μ=0σ=1

Bildbeschreibung hier eingeben

5%4.5%

Tatsächlich schien das Diagramm der Dichte der erhaltenen t-Tests das tatsächliche PDF der t-Verteilung zu überlappen:

Bildbeschreibung hier eingeben

Der interessanteste Teil befasste sich mit dem "Nenner" des t-Tests, der einer Chi-Quadrat-Verteilung folgen sollte:

(n-1)s2/σ2=98(49(SDEIN2+SDEIN2))/98(eσ2-1)e2μ+σ2
.

Hier verwenden wir die übliche Standardabweichung, wie in diesem Wikipedia-Eintrag :

SX1X2=(n1-1)SX12+(n2-1)SX22n1+n2-2

Und überraschenderweise (oder auch nicht) war die Handlung extrem anders als das überlagerte Chi-Quadrat-PDF:

Bildbeschreibung hier eingeben

Typ II Fehler und Leistung:

Die Verteilung des Blutdrucks ist logarithmisch normal möglich , was äußerst praktisch ist, um ein synthetisches Szenario zu erstellen, in dem die Vergleichsgruppen in Durchschnittswerten durch einen Abstand von klinischer Relevanz getrennt sind, beispielsweise in einer klinischen Studie, in der die Wirkung eines Blutdrucks getestet wird Medikament konzentriert sich auf den diastolischen Blutdruck, ein signifikanter Effekt könnte als ein durchschnittlicher Abfall von angesehen werden10 mmHg (eine SD von ungefähr 9 mmHg wurde gewählt):

Bildbeschreibung hier eingeben Ausführen von Vergleichstests mit einer ansonsten ähnlichen Monte-Carlo-Simulation wie für Typ-I-Fehler zwischen diesen fiktiven Gruppen und mit einem Signifikanzniveau von 5% wir landen mit 0,024% Typ-II-Fehler und eine Potenz von nur 99%.

Der Code ist hier .

Antoni Parellada
quelle
1
Ich denke, das ist ein weit verbreitetes Missverständnis der CLT. Die CLT hat nicht nur nichts mit der Beibehaltung des Fehlers vom Typ II zu tun (den hier niemand erwähnt hat), sondern ist häufig auch nicht anwendbar, wenn Sie die Populationsvarianz schätzen müssen. Die Stichprobenvarianz kann sehr weit von einer skalierten Chi-Quadrat-Verteilung entfernt sein, wenn die Daten nicht Gaußsch sind, sodass die CLT möglicherweise nicht angewendet wird, selbst wenn die Stichprobengröße Zehntausende überschreitet. Für viele Distributionen ist die SD nicht einmal ein gutes Maß für die Dispersion.
Frank Harrell
1
Professor Harrell, ich werde den Posten gerne abbauen, wenn er falsch ist. Dies kann sehr wohl ein sehr grundlegendes Missverständnis sein. Ich schlug vor, dass die auf die Verteilung der Stichprobenmittel angewendete CLT in großen Stichproben den Vergleich der Mittelwerte mit einem Z-Test oder T-Test unabhängig von der Verteilung des Ursprungs der Stichproben validiert. Das ist nicht richtig?
Antoni Parellada
1
Dies wäre richtig, wenn (1) die Standardabweichung der Stichprobe als Dispersionsmaß für die wahre unbekannte Verteilung dient oder (2) die wahre Populationsstandardabweichung bekannt ist. Das ist sehr oft nicht der Fall. Und ein Beispiel dafür, dass n = 20.000 viel zu klein ist, als dass die CLT "funktionieren" könnte, ist das Entnehmen von Stichproben aus der logarithmischen Normalverteilung. Missverständnisse über diese Punkte sind bei Doktoranden mit 20 Jahren Erfahrung in der Statistik weit verbreitet.
Frank Harrell
5
Die Frage, Lisa, ist, ob Sie die Mittelwerte vergleichen müssen oder nur die Standorte von zwei Populationen vergleichen möchten. In einigen Anwendungen konzentriert sich das Interesse auf einen Mittelwert oder eine Summe, wobei das Ersetzen durch einen anderen Parameter von geringem Nutzen wäre. Dies ist insbesondere dann der Fall, wenn die Bevölkerung eine von Natur aus kumulierte Größe ist, beispielsweise Geld oder Umweltverschmutzung.
Whuber
3
Antoni, dein letzter Abschnitt über Robustheit ist durchaus angebracht. Ich habe viele Studien durchgeführt, die den von Sawilosky und Blair beschriebenen ähnlich sind, und ich habe viel mehr gelesen, und daher habe ich den Verdacht, dass ihre Schlussfolgerungen auf ganz spezielle Arten von Daten beschränkt sein müssen. Der t-Test scheitert kläglich, insbesondere in Bezug auf die Leistung, bei stark verzerrten Verteilungen. Was mich im Laufe der Jahre überrascht hat, ist, dass es in der Tat ziemlich robust gegenüber anderen Abweichungen von der Normalität ist, bis zu dem Punkt, dass ich die Behauptung, dass es sich um ein nichtparametrisches Verfahren handelt, für richtig halte.
Whuber