Vor langer Zeit habe ich gelernt, dass eine normale Verteilung notwendig ist, um einen T-Test mit zwei Stichproben durchzuführen. Heute erzählte mir eine Kollegin, dass für N> 50 keine Normalverteilung notwendig sei. Ist das wahr?
Wenn ja, liegt das am zentralen Grenzwertsatz?
Antworten:
Normalitätsannahme eines t-Tests
Stellen Sie sich eine große Population vor, aus der Sie viele verschiedene Proben einer bestimmten Größe entnehmen können. (In einer bestimmten Studie sammeln Sie im Allgemeinen nur eine dieser Stichproben.)
Der t-Test geht davon aus, dass die Mittelwerte der verschiedenen Stichproben normal verteilt sind. Es wird nicht davon ausgegangen, dass die Bevölkerung normal verteilt ist.
Nach dem zentralen Grenzwertsatz nähern sich Stichproben einer Population mit endlicher Varianz einer Normalverteilung an, unabhängig von der Verteilung der Population. Faustregeln besagen, dass die Stichprobenmittel im Grunde genommen normal verteilt sind, solange die Stichprobengröße mindestens 20 oder 30 beträgt. Damit ein t-Test für eine Stichprobe mit kleinerer Größe gültig ist, müsste die Populationsverteilung ungefähr normal sein.
Der t-Test ist für kleine Stichproben aus nicht normalen Verteilungen ungültig, gilt jedoch für große Stichproben aus nicht normalen Verteilungen.
Kleine Stichproben aus nicht normalen Verteilungen
Wie Michael unten bemerkt, hängt die Stichprobengröße, die für die Verteilung der Mittel zur Annäherung an die Normalität benötigt wird, vom Grad der Nicht-Normalität der Bevölkerung ab. Für ungefähr normale Verteilungen benötigen Sie nicht so große Stichproben wie für eine nicht normale Verteilung.
Hier sind einige Simulationen, die Sie in R ausführen können, um ein Gefühl dafür zu bekommen. Zunächst sind hier einige Bevölkerungsverteilungen aufgeführt.
Als nächstes folgen einige Simulationen von Stichproben aus der Populationsverteilung. In jeder dieser Zeilen ist "10" die Stichprobengröße, "100" die Anzahl der Stichproben und die nachfolgende Funktion gibt die Populationsverteilung an. Sie erzeugen Histogramme der Probenmittel.
Damit ein t-Test gültig ist, sollten diese Histogramme normal sein.
Nutzen eines T-Tests
Ich muss feststellen, dass all das Wissen, das ich gerade vermittelt habe, etwas veraltet ist. Jetzt, wo wir Computer haben, können wir besser als T-Tests. Wie Frank bemerkt, möchten Sie Wilcoxon-Tests wahrscheinlich überall dort verwenden , wo Sie einen T-Test lernen konnten.
quelle
Der zentrale Grenzwertsatz ist weniger nützlich, als man in diesem Zusammenhang annehmen könnte. Erstens weiß man, wie bereits erwähnt, nicht, ob die aktuelle Stichprobengröße "groß genug" ist. Zweitens geht es bei der CLT mehr um das Erreichen des gewünschten Fehlers vom Typ I als um den Fehler vom Typ II. Mit anderen Worten, der t-Test kann in Bezug auf die Leistung nicht wettbewerbsfähig sein. Deshalb ist der Wilcoxon-Test so beliebt. Wenn die Normalität gilt, ist sie zu 95% so effizient wie der t-Test. Wenn die Normalität nicht zutrifft, kann dies beliebig effizienter sein als der t-Test.
quelle
Siehe meine vorherige Antwort auf eine Frage zur Robustheit des T-Tests .
Insbesondere empfehle ich, mit dem Applet onlinestatsbook herumzuspielen .
Das folgende Bild basiert auf dem folgenden Szenario:
Die erhaltene Simulation zeigt, dass anstelle von 5% Typ-I-Fehlern nur 4,5% Typ-I-Fehler auftraten.
Ob Sie dies für robust halten, hängt von Ihrer Perspektive ab.
quelle
In meiner Erfahrung mit nur einem Stichproben-T-Test habe ich festgestellt, dass der Versatz der Verteilungen wichtiger ist als etwa die Kurtosis. Für nicht verzerrte, aber Verteilungen (bei 5 Freiheitsgraden, einer Tukey-h-Verteilung mit usw.) habe ich festgestellt, dass 40 Proben immer ausreichend waren, um eine empirische Typ-I-Rate in der Nähe des Nominalwerts zu erhalten . Wenn die Verteilung jedoch sehr verzerrt ist, benötigen Sie möglicherweise viel mehr Samples.h=0.24999
Angenommen, Sie haben im Lotto gespielt. Mit der Wahrscheinlichkeit Sie 100.000 Dollar und mit der Wahrscheinlichkeit verlieren Sie einen Dollar. Wenn Sie einen t-Test für die Null durchführen, bei dem die mittlere Renditep=10−4 1−p
null ist,basierend auf einer Stichprobe von eintausend Ziehungen dieses Prozesses, glaube ich nicht, dass Sie die nominale Typ-I-Rate erreichen werden.edit : duh, pro @ whubers fang im kommentar hatte das von mir gegebene beispiel nicht den mittelwert null, also hat das testen auf den mittelwert null nichts mit dem typ zu tun den ich bewerte.
Da das Lotteriebeispiel häufig eine Stichprobenstandardabweichung von Null aufweist, werden die t-Test-Drosseln. Also gebe ich stattdessen ein Codebeispiel mit Goergs Lambert W x Gauß'scher Verteilung. Die Distribution, die ich hier verwende, hat einen Versatz von ungefähr 1355.
Dieser Code gibt die empirische Ausschussrate bei nominal 0,05 für verschiedene Probengrößen an. Für eine Stichprobe der Größe 50 beträgt die empirische Rate 0,40 (!); für Probengröße 250 0,29; für Probengröße 1000 0,21; für Probengröße 2000 0,18. Offensichtlich leidet der Ein-Stichproben-T-Test unter einem Versatz.
quelle
Der zentrale Grenzwertsatz legt (unter den erforderlichen Bedingungen) fest, dass der Zähler der t-Statistik asymptotisch normal ist. Die t-Statistik hat auch einen Nenner. Um eine t-Verteilung zu haben, müsste der Nenner unabhängig und die Quadratwurzel eines Chi-Quadrats auf seiner df sein.
Und wir wissen, dass es nicht unabhängig sein wird (das kennzeichnet das Normale!)
Slutskys Theorem in Kombination mit der CLT würde Ihnen sagen, dass die t-Statistik asymptotisch normal ist (aber nicht unbedingt mit einer sehr nützlichen Rate).
Welcher Satz würde ergeben, dass die t-Statistik bei Nichtnormalität ungefähr t-verteilt ist und wie schnell sie eingeht? (Natürlich wird sich das t- irgendwann auch dem Normalwert annähern, aber wir gehen davon aus, dass die Annäherung an eine andere Annäherung besser ist als nur die normale Annäherung ...)
Wichtiger als die angebliche Pegel-Robustheit des (bei größeren Stichproben) ist jedoch die Auswirkung auf seine Leistung . Beachten Sie, dass die asymptotische relative Effizienz des t-Tests im Vergleich zum Wilcoxon-Mann-Whitney-Test (zum Beispiel) 0 sein kann (dh, wenn die Stichprobengröße größer wird, während die Effektgrößen, für die Sie den Schrumpfvorgang durchführen möchten, möglicherweise erheblich größere Stichproben erfordern) die gleiche Kraft haben wie eine offensichtliche Alternative).t
Während der t-Test in vielen Fällen eine schöne normal aussehende Nullverteilung hat, wenn groß genug ist, ist seine Leistung unter der Null nicht wirklich das, worum sich die Leute am meisten kümmern - es ist die Leistung unter der Alternative - und da ist es vielleicht nicht so toll, wenn es dir wichtig ist, die null in den fällen abzulehnen, in denen der effekt nicht so einfach zu erfassen ist.n
quelle
Ja, der zentrale Grenzwertsatz sagt uns, dass dies wahr ist. Solange Sie extrem schwerfällige Merkmale vermeiden, ist die Nicht-Normalität bei mittelgroßen bis großen Stichproben kein Problem.
Hier ist eine hilfreiche Übersicht.
http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546
Der Wilcoxon-Test (von anderen erwähnt) kann eine schreckliche Leistung haben, wenn die Alternative keine Ortsverschiebung der ursprünglichen Verteilung ist. Darüber hinaus ist die Art und Weise, wie Unterschiede zwischen Verteilungen gemessen werden, nicht transitiv.
quelle
Über die Verwendung des Wilcoxon-Mann-Whitney-Tests als Alternative empfehle ich die Arbeit Der Wilcoxon-Man-Whitney-Test unter die Lupe genommen
Als Mittelwert- oder Median-Test kann der Wilcoxon-Mann-Whitney-Test (WMW) in Bezug auf Abweichungen vom reinen Verschiebungsmodell schwer unempfindlich sein.
Dies sind die Empfehlungen der Autoren des Papers:
Die Rangtransformation kann Mittelwerte, Standardabweichungen und Schiefen der beiden Stichproben unterschiedlich verändern. Die einzige Situation, in der die Rangtransformation garantiert einen vorteilhaften Effekt erzielt, ist, wenn die Verteilungen identisch sind und die Stichprobengrößen gleich sind. Bei Abweichungen von diesen eher strengen Annahmen sind die Auswirkungen der Rangtransformation auf Stichprobenmomente nicht vorhersehbar. In der Simulationsstudie der Arbeit wurde der WMW-Test mit dem Fligner-Policello-Test (FP), dem Brunner-Munzel-Test (BM), dem Zwei-Stichproben-T-Test (T), dem Welch-U-Test (U) verglichen. und der Welch U-Test auf Rängen (RU). Die vier rangbasierten Tests (WMW, FP, BM und RU) verliefen ähnlich, obwohl der BM-Test häufig etwas besser war als die anderen. Wenn die Stichprobengrößen gleich waren, Die parametrischen Tests (T und U) waren den rangbasierten Tests unter der Nullhypothese gleicher Mittelwerte überlegen, jedoch nicht unter der Nullhypothese gleicher Mediane. Wenn die Probengrößen ungleich waren, wurden die BM-, RU- und U-Tests am besten durchgeführt. Bei einigen Einstellungen führten kleine Änderungen der Eigenschaften der Grundgesamtheit zu großen Änderungen bei der Durchführung der Tests. Zusammenfassend kann der ungefähre WMW-Test für große Stichproben eine schlechte Methode zum Vergleichen der Mittelwerte oder Mediane zweier Populationen sein, es sei denn, die beiden Verteilungen haben gleiche Formen und gleiche Skalen. Dieses Problem scheint auch in verschiedenen Graden auf den exakten WMW-Test, den FP-Test, den BM-Test und den Welch-U-Test auf Rängen anzuwenden. Bei Verwendung des WMW-Tests empfehlen die Autoren, die Eigenschaften der bewerteten Proben gründlich auf Anzeichen von Schiefe und Varianzheterogenität zu untersuchen.
quelle