Angenommen, ich möchte testen, ob zwei unabhängige Stichproben unterschiedliche Mittelwerte haben. Ich weiß, dass die zugrunde liegende Verteilung nicht normal ist .
Wenn ich das richtig verstehe, ist meine Teststatistik der Mittelwert , und bei ausreichend großen Stichproben sollte der Mittelwert normalverteilt sein, auch wenn die Stichproben nicht vorhanden sind. In diesem Fall sollte also ein parametrischer Signifikanztest gültig sein, oder? Ich habe widersprüchliche und verwirrende Informationen darüber gelesen, daher würde ich mich über eine Bestätigung (oder eine Erklärung, warum ich falsch liege) freuen.
Außerdem habe ich gelesen, dass ich für große Stichproben die Z-Statistik anstelle der T-Statistik verwenden sollte. Aber in der Praxis wird die t-Verteilung einfach zur Normalverteilung konvergieren und die beiden Statistiken sollten gleich sein, oder?
Bearbeiten : Im Folgenden finden Sie einige Quellen, die den Z-Test beschreiben. Beide geben an, dass die Populationen normal verteilt sein müssen:
Hier heißt es: "Unabhängig von der Art des verwendeten Z-Tests wird angenommen, dass die Populationen, aus denen die Proben entnommen wurden, normal sind." Und hier sind die Anforderungen für den z-Test als "Zwei normalverteilte, aber unabhängige Populationen, σ ist bekannt" aufgeführt.
Antworten:
Ich denke, das ist ein weit verbreitetes Missverständnis der CLT. Die CLT hat nicht nur nichts mit der Beibehaltung des Fehlers vom Typ II zu tun (den hier niemand erwähnt hat), sondern ist häufig auch nicht anwendbar, wenn Sie die Populationsvarianz schätzen müssen. Die Stichprobenvarianz kann sehr weit von einer skalierten Chi-Quadrat-Verteilung entfernt sein, wenn die Daten nicht Gaußsch sind, sodass die CLT möglicherweise nicht angewendet wird, selbst wenn die Stichprobengröße Zehntausende überschreitet. Für viele Distributionen ist die SD nicht einmal ein gutes Maß für die Dispersion.
Um die CLT wirklich nutzen zu können, muss eines von zwei Dingen zutreffen: (1) Die Standardabweichung der Stichprobe dient als Dispersionsmaß für die wahre unbekannte Verteilung, oder (2) die wahre Populationsstandardabweichung ist bekannt. Das ist sehr oft nicht der Fall. Und ein Beispiel dafür, dass n = 20.000 viel zu klein ist, als dass die CLT "funktionieren" könnte, ergibt sich aus dem Zeichnen von Beispielen aus der logarithmischen Normalverteilung, wie an anderer Stelle auf dieser Site erläutert.
Die Standardabweichung der Stichprobe "wirkt" als Dispersionsmaß, wenn beispielsweise die Verteilung symmetrisch ist und keine Schwänze aufweist, die schwerer als die Gaußsche Verteilung sind.
Ich möchte mich bei keiner meiner Analysen auf das CLT verlassen.
quelle
Ich lasse diesen Absatz, damit die Kommentare einen Sinn ergeben: Wahrscheinlich ist die Annahme der Normalität in den ursprünglichen Populationen zu restriktiv und es kann darauf verzichtet werden, sich auf die Stichprobenverteilung und dank des zentralen Grenzwertsatzes insbesondere für große Stichproben zu konzentrieren.
Die Anwendung des Tests ist wahrscheinlich eine gute Idee, wenn Sie (wie gewöhnlich) die Populationsvarianz nicht kennen und stattdessen die Stichprobenvarianzen als Schätzer verwenden. Man beachte , dass die Annahme identischer Abweichungen müssen mit einem F - Test von Abweichungen oder einem Lavene Test getestet werden , bevor eine gepoolte Varianz Anwendung - ich habe einige Hinweise auf GitHub hiert .
Wie Sie bereits erwähnt haben, konvergiert die t-Verteilung mit zunehmender Stichprobe zur Normalverteilung, wie dieses schnelle R-Diagramm zeigt:
In Rot ist das PDF einer Normalverteilung und in Lila können Sie die fortschreitende Änderung in den "fetten Schwänzen" (oder schwereren Schwänzen) des PDFs dest Verteilung sehen, wenn die Freiheitsgrade zunehmen, bis sie sich schließlich mit der Verteilung vermischen normale Handlung.
Daher ist die Anwendung eines Z-Tests bei großen Stichproben wahrscheinlich in Ordnung.
Behebung der Probleme mit meiner ersten Antwort. Vielen Dank, Glen_b, für Ihre Hilfe beim OP (die wahrscheinlichen neuen Interpretationsfehler liegen ganz bei mir).
Abgesehen von den Komplexitäten in den Formeln für eine Stichprobe vs. zwei Stichproben (gepaart und ungepaart) ist die allgemeine Statistik, die sich auf den Fall konzentriert , dass ein Stichprobenmittelwert mit einem Populationsmittelwert verglichen wird, wie folgt:
Die Tendenz zur Normalität der Stichprobenverteilung des Stichprobenmittels bei zunehmender Stichprobengröße kann die Annahme einer Normalverteilung des Zählers rechtfertigen, auch wenn die Grundgesamtheit nicht normal ist. Die beiden anderen Bedingungen (Chi-Quadrat-Verteilung des Nenners und Unabhängigkeit des Zählers vom Nenner) werden jedoch nicht beeinflusst.
Aber nicht alles ist verloren. In diesem Beitrag wird diskutiert, wie der Slutzky-Satz die asymptotische Konvergenz zu einer Normalverteilung unterstützt, auch wenn die Chi-Verteilung des Nenners nicht erfüllt ist.
Auf dem Papier "Ein realistischerer Blick auf die Robustheit und die Fehlereigenschaften des Typs II des t-Tests auf Abweichungen von der Populationsnormalität" von Sawilowsky SS und Blair RC in Psychological Bulletin, 1992, Vol. 2, 352-360 , wo sie weniger ideale oder mehr "reale" (weniger normale) Verteilungen auf Leistung und auf Typ-I-Fehler testeten, können die folgenden Behauptungen gefunden werden: "Trotz des konservativen Charakters in Bezug auf Typ Wenn der t-Test für einige dieser realen Verteilungen fehlerhaft ist, war der Einfluss auf die Leistungspegel für die verschiedenen Behandlungsbedingungen und untersuchten Probengrößen gering. Die Forscher können den geringen Leistungsverlust leicht durch Auswahl einer etwas größeren Probengröße ausgleichen. .
" Die vorherrschende Meinung scheint zu sein , dass der unabhängigen Stichproben t - Test recht robust ist, sind soweit Typ I Fehler betrifft, zu nicht-Gauß - Population Form so lange wie (a) Stichprobengrößen sind gleich oder fast so, (b) Probe Die Testgrößen sind relativ groß (Boneau, 1960, nennt Stichprobengrößen von 25 bis 30), und (c) Tests sind eher zweiseitig als einseitig. Beachten Sie auch, dass Unterschiede zwischen nominalem Alpha und tatsächlichem Alpha auftreten, wenn diese Bedingungen erfüllt sind auftreten, sind Diskrepanzen in der Regel eher konservativer als liberaler Natur. "
Die Autoren betonen die kontroversen Aspekte des Themas und ich freue mich darauf, an einigen Simulationen zu arbeiten, die auf der von Professor Harrell erwähnten logarithmischen Normalverteilung basieren. Ich möchte auch einige Monte-Carlo-Vergleiche mit nichtparametrischen Methoden anstellen (z. B. Mann-Whitney-U-Test). Es ist also noch in Arbeit ...
SIMULATIONEN:
Haftungsausschluss: Was folgt, ist eine dieser Übungen, um es auf die eine oder andere Weise selbst zu beweisen. Die Ergebnisse können nicht für Verallgemeinerungen verwendet werden (zumindest nicht von mir), aber ich denke, ich kann sagen, dass diese beiden (wahrscheinlich fehlerhaften) MC-Simulationen hinsichtlich der Verwendung des t-Tests unter den gegebenen Umständen nicht zu entmutigend erscheinen beschrieben.
Typ I-Fehler:
Tatsächlich schien das Diagramm der Dichte der erhaltenen t-Tests das tatsächliche PDF der t-Verteilung zu überlappen:
Der interessanteste Teil befasste sich mit dem "Nenner" des t-Tests, der einer Chi-Quadrat-Verteilung folgen sollte:
Hier verwenden wir die übliche Standardabweichung, wie in diesem Wikipedia-Eintrag :
Und überraschenderweise (oder auch nicht) war die Handlung extrem anders als das überlagerte Chi-Quadrat-PDF:
Typ II Fehler und Leistung:
Die Verteilung des Blutdrucks ist logarithmisch normal möglich , was äußerst praktisch ist, um ein synthetisches Szenario zu erstellen, in dem die Vergleichsgruppen in Durchschnittswerten durch einen Abstand von klinischer Relevanz getrennt sind, beispielsweise in einer klinischen Studie, in der die Wirkung eines Blutdrucks getestet wird Medikament konzentriert sich auf den diastolischen Blutdruck, ein signifikanter Effekt könnte als ein durchschnittlicher Abfall von angesehen werden10 mmHg (eine SD von ungefähr 9 mmHg wurde gewählt):
Ausführen von Vergleichstests mit einer ansonsten ähnlichen Monte-Carlo-Simulation wie für Typ-I-Fehler zwischen diesen fiktiven Gruppen und mit einem Signifikanzniveau von5 % wir landen mit 0,024 % Typ-II-Fehler und eine Potenz von nur 99 % .
Der Code ist hier .
quelle