So wählen Sie zwischen t-Test und nicht parametrischem Test, z. B. Wilcoxon, in kleinen Stichproben

96

Bestimmte Hypothesen können mit dem Student- t- Test (möglicherweise mit der Welch-Korrektur für ungleiche Varianzen bei zwei Stichproben) oder mit einem nichtparametrischen Test wie dem Wilcoxon-Paired-Signed-Rank-Test, dem Wilcoxon-Mann-Whitney-U-Test, getestet werden. oder der Paired-Sign-Test. Wie können wir prinzipiell entscheiden, welcher Test am besten geeignet ist, insbesondere wenn die Stichprobengröße "klein" ist?

Viele Einführungslehrbücher und Vorlesungsunterlagen bieten einen "Flussdiagramm" -Ansatz, bei dem die Normalität überprüft wird (entweder - versehentlich - durch einen Normalitätstest oder allgemeiner durch einen QQ-Plot oder ähnliches), um zwischen einem t -Test oder einem nicht-parametrischen Test zu entscheiden . Für den ungepaarten t- Test mit zwei Stichproben kann eine weitere Prüfung auf Homogenität der Varianz durchgeführt werden, um zu entscheiden, ob die Welch-Korrektur angewendet werden soll. Ein Problem bei diesem Ansatz ist, wie die Entscheidung, welcher Test angewendet werden soll, von den beobachteten Daten abhängt und wie sich dies auf die Leistung (Leistung, Fehlerrate Typ I) des ausgewählten Tests auswirkt.

Ein weiteres Problem besteht darin, wie schwierig es ist, die Normalität in kleinen Datenmengen zu überprüfen: Formale Tests haben eine geringe Leistung, sodass Verstöße möglicherweise nicht erkannt werden. Sogar ungeheure Verstöße könnten unentdeckt bleiben, z. B. wenn die Verteilung gemischt ist, aber aus einer Komponente der Mischung keine Beobachtungen gezogen wurden. Anders als für großes können wir uns nicht auf das Sicherheitsnetz des zentralen Grenzwertsatzes und die asymptotische Normalität der Teststatistik und der t- Verteilung stützen .n

Eine grundsätzliche Antwort darauf lautet "Sicherheit geht vor": Da die Normalitätsannahme in einer kleinen Stichprobe nicht zuverlässig überprüft werden kann, sollten Sie sich an nicht parametrische Methoden halten. Eine andere Möglichkeit besteht darin, alle Gründe für die Annahme der Normalität theoretisch (z. B. Variable ist die Summe mehrerer zufälliger Komponenten und CLT gilt) oder empirisch (z. B. frühere Studien mit größeren nahezulegen, dass Variable normal ist) zu betrachten und einen t- Test nur dann zu verwenden, wenn solche Gründe vorliegen . Dies rechtfertigt jedoch normalerweise nur eine ungefähre Normalität, und bei niedrigen Freiheitsgraden ist es schwierig zu beurteilen, wie nahe es an der Normalität liegen muss, um die Ungültigmachung eines t- Tests zu vermeiden .n

Die meisten Anleitungen zur Auswahl eines T-Tests oder eines nicht parametrischen Tests konzentrieren sich auf das Problem der Normalität. Bei kleinen Stichproben treten jedoch auch einige Nebenaspekte auf:

  • Wenn Sie einen "nicht verwandten" oder einen "ungepaarten" t-Test durchführen, ob Sie eine Welch-Korrektur verwenden sollen ? Einige Leute verwenden einen Hypothesentest für die Gleichheit von Varianzen, aber hier hätte er eine geringe Leistung; andere prüfen anhand verschiedener Kriterien, ob SDs "angemessen" nahe beieinander liegen oder nicht. Ist es sicherer, die Welch-Korrektur immer für kleine Stichproben zu verwenden, es sei denn, es gibt einen guten Grund zu der Annahme, dass die Populationsabweichungen gleich sind?

  • Wenn Sie die Methodenauswahl als Kompromiss zwischen Leistung und Robustheit betrachten, sind Behauptungen über die asymptotische Effizienz der nicht parametrischen Methoden nicht hilfreich . Die Faustregel, dass " Wilcoxon-Tests etwa 95% der Leistung eines T-Tests haben, wenn die Daten wirklich normal sind , und oft weitaus leistungsstärker sind, wenn die Daten nicht, also nur ein Wilcoxon verwenden", ist manchmal zu hören, aber Wenn die 95% nur für großes , ist dies eine fehlerhafte Begründung für kleinere Stichproben.n

  • Kleine Stichproben können es sehr schwierig oder unmöglich machen, zu beurteilen, ob eine Transformation für die Daten geeignet ist, da es schwierig ist, festzustellen, ob die transformierten Daten zu einer (ausreichend) normalen Verteilung gehören. Wenn ein QQ-Plot also sehr positiv verzerrte Daten enthält, die nach dem Aufzeichnen von Protokollen sinnvoller aussehen, ist es sicher, einen T-Test für die aufgezeichneten Daten durchzuführen? Bei größeren Stichproben wäre dies sehr verlockend, aber bei kleinen würde ich wahrscheinlich warten, wenn es nicht Grund gegeben hätte, überhaupt eine logarithmische Normalverteilung zu erwarten.n

  • Was ist mit der Überprüfung der Annahmen für die Nicht-Parametrik? Einige Quellen empfehlen, vor der Anwendung eines Wilcoxon-Tests eine symmetrische Verteilung zu überprüfen (wobei dieser Test eher als Standorttest als als stochastische Dominanz zu betrachten ist), was ähnliche Probleme wie bei der Überprüfung der Normalität aufwirft. Wenn der Grund, warum wir einen nicht-parametrischen Test anwenden, in erster Linie ein blinder Gehorsam gegenüber dem Mantra "Sicherheit zuerst" ist, dann würde uns die Schwierigkeit, die Schiefe anhand einer kleinen Stichprobe zu beurteilen, anscheinend zu der niedrigeren Potenz eines Paar-Vorzeichen-Tests führen .

Gibt es in Anbetracht dieser kleinen Stichproben ein gutes - hoffentlich zitierfähiges - Verfahren, um bei der Entscheidung zwischen t- und nichtparametrischen Tests durchzuarbeiten?

Es gab mehrere ausgezeichnete Antworten, aber eine Antwort, die andere Alternativen zu Rangtests in Betracht zieht, wie zum Beispiel Permutationstests, wäre auch willkommen.

Silberfisch
quelle
2
Ich sollte erklären, was eine "Methode zur Auswahl eines Tests" sein könnte - Einführungstexte verwenden häufig Flussdiagramme. Für ungepaarte Daten möglicherweise: "1. Überprüfen Sie mit einer Methode, ob beide Stichproben normal verteilt sind (wenn nicht mit 3 fortfahren). 2. Überprüfen Sie mit einer Methode, ob ungleiche Abweichungen vorliegen. Führen Sie in diesem Fall einen t-Test mit zwei Stichproben durch Wenn dies nicht der Fall ist, führen Sie die Welch-Korrektur ohne Korrektur durch. 3. Versuchen Sie, die Daten in die Normalität zu transformieren (wenn Sie mit 2 arbeiten, fahren Sie mit 4 fort). Aber viele dieser Schritte scheinen für kleine n unbefriedigend, wie ich hoffe, dass mein Q erklärt!
Silverfish
2
Interessante Frage (+1) und ein mutiger Schritt, um ein Kopfgeld aufzustellen. Ich freue mich auf interessante Antworten. Übrigens sehe ich in meinem Fachgebiet häufig einen Permutationstest (anstelle von t-Test oder Mann-Whitney-Wilcoxon). Ich denke, es könnte auch ein würdiger Anwärter sein. Abgesehen davon haben Sie nie angegeben, was Sie unter "kleiner Stichprobengröße" verstehen.
Amöbe
1
@Alexis Viele Bücher behaupten, dass der Wilcoxon-Test eine Symmetrie um den Median voraussetzt, zumindest wenn die Ergebnisse als Aussage über die Position angesehen werden (einige empfehlen eine Box-Darstellung, um dies zu überprüfen: siehe meine Diskussion mit Glen oben / Frank Harrells Antwort unten für Gefahren von mehreren Schritten Verfahren). Einige Quellen geben auch an, dass Wilcoxon-Mann-Whitney U davon ausgeht, dass sich die Gruppenverteilungen nur durch die Übersetzung unterscheiden (und schlagen eine visuelle Überprüfung von Histogrammen oder empirischen CDFs vor). Eine Sig. Der U-Test kann auf unterschiedlich geformte Verteilungen zurückzuführen sein, selbst wenn die Mediane gleich sind. Siehe auch die in Kommentaren unter der Antwort von Frank Harrell zitierten Artikel.
Silverfish
3
@Silverfish "Wenn die Ergebnisse als Aussage über die Position angesehen werden" Dies ist eine wichtige Einschränkung, da es sich bei diesen Tests im Allgemeinen um Aussagen über Beweise für H . Wenn Sie zusätzliche Verteilungsannahmen treffen, wird der Umfang der Inferenz eingeschränkt (z. B. Tests für Medianunterschiede), dies ist jedoch im Allgemeinen keine Voraussetzung für die Tests. 0:P(XA>XB)=0.5
Alexis
2
Es könnte sich lohnen, zu untersuchen, wie "fehlerhaft" die Argumentation "95% Leistung für Wilcoxon" für kleine Stichproben ist (zum Teil hängt es davon ab, was genau man tut und wie klein klein ist). Wenn Sie beispielsweise gerne Tests mit beispielsweise 5,5% anstelle von 5% durchführen, hält die Leistung häufig ziemlich gut stand, wenn dies das am besten geeignete erreichbare Signifikanzniveau ist. Einmal können Sie natürlich - in der Phase der "Leistungsberechnung", bevor Sie Daten erfassen - herausfinden, wie die Umstände sein können, und ein Gefühl dafür bekommen, welche Eigenschaften der Wilcoxon bei den von Ihnen in Betracht gezogenen Stichprobengrößen aufweist.
Glen_b

Antworten:

67

Ich werde die Reihenfolge der Fragen zu ändern.

Ich habe festgestellt, dass Lehrbücher und Vorlesungsunterlagen häufig nicht übereinstimmen, und möchte, dass ein System die Auswahl durcharbeitet, die sicher als bewährte Methode empfohlen werden kann, und insbesondere ein Lehrbuch oder eine Arbeit, auf die sich dies beziehen kann.

Leider verlassen sich einige Diskussionen zu diesem Thema in Büchern usw. auf die erhaltene Weisheit. Manchmal ist diese empfangene Weisheit vernünftig, manchmal weniger (zumindest in dem Sinne, dass sie dazu neigt, sich auf ein kleineres Problem zu konzentrieren, wenn ein größeres Problem ignoriert wird); Wir sollten die für die Beratung angebotenen Rechtfertigungen (falls überhaupt eine Rechtfertigung angeboten wird) sorgfältig prüfen.

Die meisten Anleitungen zur Auswahl eines T-Tests oder eines nicht parametrischen Tests konzentrieren sich auf das Problem der Normalität.

Das ist wahr, aber es ist aus mehreren Gründen, die ich in dieser Antwort anspreche, etwas falsch.

Wenn Sie einen "nicht verwandten" oder einen "ungepaarten" t-Test durchführen, ob Sie eine Welch-Korrektur verwenden sollen?

Dies (um es zu verwenden, es sei denn, Sie haben Grund zu der Annahme, dass Abweichungen gleich sein sollten) ist der Rat zahlreicher Referenzen. Ich weise in dieser Antwort auf einige hin.

Einige Leute verwenden einen Hypothesentest für die Gleichheit von Varianzen, aber hier hätte er eine geringe Leistung. Im Allgemeinen auge ich nur darauf, ob die SDs der Stichproben "angemessen" nahe beieinander liegen oder nicht (was etwas subjektiv ist, es muss also eine prinzipiellere Vorgehensweise geben), aber auch hier kann es sein, dass die SDs der Grundgesamtheit mit niedrigem n eher weiter entfernt sind abgesehen von den Probe diejenigen.

Ist es sicherer, die Welch-Korrektur immer für kleine Stichproben zu verwenden, es sei denn, es gibt einen guten Grund zu der Annahme, dass die Populationsabweichungen gleich sind? Das ist der Rat. Die Eigenschaften der Tests werden durch die Auswahl auf der Grundlage des Annahmetests beeinflusst.

Einige Referenzen dazu sind hier und hier zu sehen , obwohl es mehr gibt, die ähnliche Dinge aussagen.

Das Problem der Varianzengleichheit hat viele ähnliche Merkmale wie das Problem der Normalität - die Leute wollen es testen, der Rat schlägt vor, dass die Auswahl der Tests anhand der Testergebnisse die Ergebnisse beider Arten von nachfolgenden Tests nachteilig beeinflussen kann - es ist besser, einfach nicht anzunehmen, was Sie können dies nicht hinreichend begründen (indem Sie über die Daten nachdenken, Informationen aus anderen Studien verwenden, die sich auf dieselben Variablen beziehen usw.).

Es gibt jedoch Unterschiede. Eines ist, dass - zumindest im Hinblick auf die Verteilung der Teststatistik unter der Nullhypothese (und damit auf ihre Niveaurobustheit) - die Nichtnormalität in großen Stichproben weniger wichtig ist (zumindest in Bezug auf das Signifikanzniveau, auch wenn dies eine Potenz sein könnte Dies ist immer noch ein Problem, wenn Sie kleine Effekte finden müssen, während der Effekt ungleicher Varianzen unter der Annahme gleicher Varianzen bei großen Stichproben nicht wirklich verschwindet.

Welche prinzipielle Methode kann für die Auswahl der am besten geeigneten Methode empfohlen werden, wenn die Stichprobengröße "klein" ist?

Bei Hypothesentests kommt es (unter bestimmten Bedingungen) in erster Linie auf zwei Dinge an:

  • Was ist die tatsächliche Fehlerrate Typ I?

  • Wie ist das Leistungsverhalten?

Wir müssen auch bedenken , dass , wenn wir zwei Verfahren sind zu vergleichen, die erste Veränderung wird die zweite ändern (das heißt, wenn sie nicht auf dem gleichen tatsächlichen Signifikanzniveau durchgeführt, die man erwarten würde , dass höhere zugeordnet ist höhere Leistung).α

Gibt es in Anbetracht dieser kleinen Stichproben eine gute - hoffentlich zitierbare - Checkliste, die Sie durcharbeiten müssen, wenn Sie sich zwischen t- und nichtparametrischen Tests entscheiden?

Ich werde eine Reihe von Situationen betrachten, in denen ich einige Empfehlungen aussprechen werde, wobei sowohl die Möglichkeit von Nichtnormalität als auch ungleiche Abweichungen zu berücksichtigen sind. Erwähnen Sie in jedem Fall den t-Test, um den Welch-Test zu implizieren:

  • n mittelgroß

Nicht normal (oder unbekannt), wahrscheinlich mit nahezu gleicher Varianz:

Wenn die Verteilung stark schwanzförmig ist, sind Sie im Allgemeinen mit einem Mann-Whitney besser zurecht, wenn sie jedoch nur geringfügig schwer ist, sollte der T-Test in Ordnung sein. Bei Light-Tails kann der T-Test (oft) bevorzugt sein. Permutationstests sind eine gute Option (Sie können sogar einen Permutationstest mit einer t-Statistik durchführen, wenn Sie dazu neigen). Bootstrap-Tests sind ebenfalls geeignet.

Nicht normale (oder unbekannte), ungleiche Varianz (oder Varianzbeziehung unbekannt):

Wenn die Verteilung stark schwanzförmig ist, ist die Mann-Whitney-Verteilung in der Regel besser - wenn die Varianzunterschiede nur mit der Ungleichung des Mittelwerts zusammenhängen - dh wenn H0 zutrifft, sollte auch der Spreadunterschied fehlen. GLMs sind oft eine gute Option, besonders wenn es eine Schiefe gibt und die Streuung mit dem Mittelwert zusammenhängt. Ein Permutationstest ist eine weitere Option mit einer ähnlichen Einschränkung wie bei den rangbasierten Tests. Bootstrap-Tests sind hier eine gute Möglichkeit.

Zimmerman und Zumbo (1993) schlagen einen Welch-t-Test an den Rängen vor, von dem sie sagen, dass er in Fällen, in denen die Varianzen ungleich sind, besser abschneidet als der Wilcoxon-Mann-Whitney.[1]

  • n mäßig klein

Rang-Tests sind hier vernünftige Standardwerte, wenn Sie eine Nicht-Normalität erwarten (ebenfalls mit dem obigen Vorbehalt). Wenn Sie externe Informationen zu Form oder Varianz haben, können Sie GLMs in Betracht ziehen. Wenn Sie erwarten, dass die Dinge nicht zu weit vom Normalen entfernt sind, sind T-Tests möglicherweise in Ordnung.

  • n sehr klein

Aufgrund des Problems, geeignete Signifikanzniveaus zu erhalten, sind möglicherweise weder Permutationstests noch Rangtests geeignet, und bei den kleinsten Größen ist ein T-Test möglicherweise die beste Option (es besteht eine gewisse Möglichkeit, ihn geringfügig zu stabilisieren). Es gibt jedoch ein gutes Argument für die Verwendung höherer Typ-I-Fehlerraten bei kleinen Stichproben (ansonsten lassen Sie die Typ-II-Fehlerraten aufblähen, während Sie die Typ-I-Fehlerraten konstant halten). Siehe auch de Winter (2013) .[2]

Der Hinweis muss etwas geändert werden, wenn die Verteilungen sowohl stark verzerrt als auch sehr diskret sind, z. B. Likert-Skalenelemente, bei denen die meisten Beobachtungen in einer der Endkategorien liegen. Dann ist der Wilcoxon-Mann-Whitney nicht unbedingt eine bessere Wahl als der T-Test.

Die Simulation kann Ihnen bei der Auswahl weiterhelfen, wenn Sie Informationen über wahrscheinliche Umstände haben.

Ich schätze, dass dies ein mehrjähriges Thema ist, aber die meisten Fragen betreffen den jeweiligen Datensatz des Fragestellers, manchmal eine allgemeinere Diskussion der Macht und gelegentlich, was zu tun ist, wenn zwei Tests nicht übereinstimmen, aber ich möchte, dass ein Verfahren den richtigen Test auswählt der erste Ort!

Das Hauptproblem ist, wie schwierig es ist, die Normalitätsannahme in einem kleinen Datensatz zu überprüfen:

Es ist schwierig, die Normalität in einem kleinen Datensatz zu überprüfen, und bis zu einem gewissen Grad ist dies ein wichtiges Problem, aber ich denke, es gibt ein weiteres wichtiges Problem, das wir berücksichtigen müssen. Ein grundlegendes Problem besteht darin, dass der Versuch, die Normalität als Grundlage für die Auswahl zwischen Tests zu bewerten, die Eigenschaften der Tests, zwischen denen Sie wählen, nachteilig beeinflusst.

Jeder formale Test auf Normalität hätte eine geringe Leistung, so dass Verstöße möglicherweise nicht erkannt werden. (Persönlich würde ich nicht für diesen Zweck testen, und ich bin eindeutig nicht allein, aber ich habe diesen geringen Nutzen gefunden, wenn Kunden einen Normalitätstest fordern, weil dies das ist, was ihr Lehrbuch oder alte Vorlesungsnotizen oder eine Website, die sie einmal gefunden haben, ist Hier wäre ein gewichtigeres Zitat willkommen.)

Hier ist ein Beispiel für eine Referenz (es gibt andere), die eindeutig ist (Fay und Proschan, 2010 ):[3]

Die Wahl zwischen t- und WMW-DRs sollte nicht auf einem Test der Normalität beruhen.

Ebenso eindeutig ist, dass sie nicht auf Varianzgleichheit prüfen.

Um die Sache noch schlimmer zu machen, ist es unsicher, den zentralen Grenzwertsatz als Sicherheitsnetz zu verwenden: Für kleine n können wir uns nicht auf die bequeme asymptotische Normalität der Teststatistik und der t-Verteilung verlassen.

Auch bei großen Stichproben bedeutet die asymptotische Normalität des Zählers nicht, dass die t-Statistik eine t-Verteilung aufweist. Das mag jedoch nicht so wichtig sein, da Sie immer noch asymptotische Normalität haben sollten (z. B. CLT für den Zähler und Slutskys Theorem legen nahe, dass die t-Statistik irgendwann normal aussehen sollte, wenn die Bedingungen für beide gelten.)

Eine grundsätzliche Antwort darauf lautet "Sicherheit geht vor": Da es keine Möglichkeit gibt, die Normalitätsannahme bei einer kleinen Stichprobe zuverlässig zu überprüfen, führen Sie stattdessen einen entsprechenden nichtparametrischen Test durch.

Das ist eigentlich der Rat, den die Referenzen, die ich erwähne (oder die auf Erwähnungen verweisen), geben.

Ein anderer Ansatz, den ich gesehen habe, bei dem ich mich jedoch weniger wohl fühle, besteht darin, eine visuelle Prüfung durchzuführen und einen T-Test durchzuführen, wenn nichts Ungewöhnliches festgestellt wird ("kein Grund, die Normalität abzulehnen", wobei die geringe Leistung dieser Prüfung ignoriert wird). Meine persönliche Neigung besteht darin, zu prüfen, ob es Gründe für die Annahme von Normalität, theoretischer (z. B. Variable ist Summe mehrerer zufälliger Komponenten und CLT gilt) oder empirischer (z. B. frühere Studien mit größeren n nahe legen, dass Variable normal ist) gibt.

Beides sind gute Argumente, vor allem wenn man bedenkt, dass der t-Test einigermaßen robust gegen moderate Abweichungen von der Normalität ist. (Man sollte jedoch bedenken, dass "moderate Abweichungen" eine heikle Phrase ist; bestimmte Arten von Abweichungen von der Normalität können die Leistung des t-Tests ziemlich stark beeinträchtigen, obwohl diese Abweichungen visuell sehr gering sind - die t- Der Test ist für einige Abweichungen weniger robust als für andere. Wir sollten dies berücksichtigen, wenn wir über kleine Abweichungen von der Normalität sprechen.)

Beachten Sie jedoch die Formulierung "die Variable ist normal". Vernünftigerweise mit der Normalität vereinbar zu sein, ist nicht dasselbe wie Normalität. Wir können die tatsächliche Normalität oft ablehnen, ohne die Daten sehen zu müssen. Wenn die Daten beispielsweise nicht negativ sein können, kann die Verteilung nicht normal sein. Glücklicherweise ist das Wesentliche näher an dem, was wir möglicherweise aus früheren Studien oder Überlegungen zur Zusammensetzung der Daten haben, was bedeutet, dass die Abweichungen von der Normalität gering sein sollten.

In diesem Fall würde ich einen T-Test verwenden, wenn die Daten einer Sichtprüfung unterzogen wurden, und mich ansonsten an Nicht-Parameter halten. Aber theoretische oder empirische Gründe rechtfertigen normalerweise nur die Annahme einer ungefähren Normalität, und bei geringen Freiheitsgraden ist es schwierig zu beurteilen, wie nahe es an der Normalität liegen muss, um die Ungültigmachung eines t-Tests zu vermeiden.

Nun, das ist etwas, was wir ziemlich leicht einschätzen können (etwa durch Simulationen, wie ich bereits erwähnt habe). Nach allem, was ich gesehen habe, scheint die Schiefe mehr zu bedeuten als schwere Schwänze (aber andererseits habe ich einige gegenteilige Behauptungen gesehen - obwohl ich nicht weiß, worauf das beruht).

Für Menschen, die die Wahl von Methoden als Kompromiss zwischen Kraft und Robustheit betrachten, sind Behauptungen über die asymptotische Effizienz der nichtparametrischen Methoden nicht hilfreich. Zum Beispiel lautet die Faustregel: "Wilcoxon-Tests haben etwa 95% der Leistung eines T-Tests, wenn die Daten wirklich normal sind, und sind oft weitaus leistungsfähiger, wenn die Daten nicht normal sind. Verwenden Sie einfach ein Wilcoxon." gehört, aber wenn die 95% nur für große n gilt, ist dies eine fehlerhafte Begründung für kleinere Stichproben.

Aber wir können die Leistung von kleinen Samples ganz einfach überprüfen! Es ist einfach genug zu simulieren, um Leistungskurven wie hier zu erhalten .
(Siehe auch de Winter (2013) ).[2]

Nachdem solche Simulationen unter einer Vielzahl von Umständen durchgeführt wurden, sowohl für den Zwei-Stichproben- als auch den Ein-Stichproben- / Paar-Differenz-Fall, scheint der normale Wirkungsgrad der kleinen Stichprobe in beiden Fällen etwas geringer zu sein als der asymptotische Wirkungsgrad, jedoch der Wirkungsgrad der vorzeichenbehafteten Rang- und Wilcoxon-Mann-Whitney-Tests ist auch bei sehr kleinen Stichproben immer noch sehr hoch.

Zumindest dann, wenn die Tests auf demselben tatsächlichen Signifikanzniveau durchgeführt werden. Sie können einen 5% -Test nicht mit sehr kleinen Stichproben durchführen (und am wenigsten zum Beispiel ohne randomisierte Tests), aber wenn Sie bereit sind, stattdessen einen 5,5% - oder einen 3,2% -Test durchzuführen (sagen wir mal), dann sind die Rangtests halten sich im Vergleich zu einem t-Test auf diesem Signifikanzniveau sehr gut.

Kleine Stichproben können es sehr schwierig oder unmöglich machen, zu beurteilen, ob eine Transformation für die Daten geeignet ist, da es schwierig ist, festzustellen, ob die transformierten Daten zu einer (ausreichend) normalen Verteilung gehören. Wenn ein QQ-Plot also sehr positiv verzerrte Daten enthält, die nach dem Aufzeichnen von Protokollen sinnvoller aussehen, ist es sicher, einen T-Test für die aufgezeichneten Daten durchzuführen? Bei größeren Stichproben wäre dies sehr verlockend, aber bei kleinen n würde ich wahrscheinlich warten, wenn es nicht Grund gegeben hätte, überhaupt eine logarithmische Normalverteilung zu erwarten.

Es gibt eine andere Alternative: Nehmen Sie eine andere parametrische Annahme vor. Wenn es beispielsweise verzerrte Daten gibt, kann man zum Beispiel in einigen Situationen eine Gammaverteilung oder eine andere verzerrte Familie als bessere Annäherung betrachten - in mäßig großen Stichproben verwenden wir möglicherweise nur eine GLM, aber in sehr kleinen Stichproben Es kann erforderlich sein, einen Test mit kleinen Stichproben durchzuführen. In vielen Fällen kann eine Simulation hilfreich sein.

Alternative 2: Stabilisieren Sie den t-Test (achten Sie jedoch auf die Auswahl eines stabilen Verfahrens, um die resultierende Verteilung der Teststatistik nicht zu diskretisieren) - dies hat einige Vorteile gegenüber einem nichtparametrischen Verfahren mit sehr kleinen Stichproben wie der Fähigkeit Tests mit niedriger Typ-I-Fehlerrate zu berücksichtigen.

Hier denke ich an die Verwendung von M-Schätzern der Position (und verwandten Schätzern der Skalierung) in der t-Statistik, um reibungslos gegen Abweichungen von der Normalität zu stabilisieren. Etwas ähnlich dem Welch, wie:

xySp

wo und , usw. sind Schätzungen der Position bzw. des Maßstabs.Sp2=sx2nx+sy2nyxsx

Ich würde versuchen, die Tendenz der Statistik zur Diskriminierung zu verringern - also würde ich Dinge wie Trimmen und Winsorizing vermeiden, da wenn die ursprünglichen Daten diskret wären, Trimmen usw. dies verschlimmern würde. Durch die Verwendung von M-Schätzungsansätzen mit einer glatten erzielen Sie ähnliche Effekte, ohne zur Diskriminanz beizutragen. Denken Sie daran, dass wir versuchen, mit der Situation umzugehen, in der in der Tat sehr klein ist (etwa 3-5, zum Beispiel in jeder Stichprobe), sodass auch die M-Schätzung möglicherweise Probleme hat.ψn

Sie können beispielsweise die normale Simulation verwenden, um p-Werte zu erhalten (wenn die Stichprobengrößen sehr klein sind, würde ich vorschlagen, dass Sie über das Bootstrapping hinausgehen - wenn die Stichprobengrößen nicht so klein sind, kann ein sorgfältig implementierter Bootstrap recht gut funktionieren , aber wir könnten genauso gut nach Wilcoxon-Mann-Whitney zurückkehren). Es gibt einen Skalierungsfaktor sowie eine df-Anpassung, um zu dem zu gelangen, was ich mir als vernünftige t-Näherung vorstellen würde. Dies bedeutet, dass wir die Art von Eigenschaften erhalten sollten, die wir sehr nahe an der Normalität suchen, und eine angemessene Robustheit in der weiten Umgebung der Normalität aufweisen sollten. Es gibt eine Reihe von Problemen, die außerhalb des Rahmens der vorliegenden Frage liegen, aber ich denke, bei sehr kleinen Stichproben sollten die Vorteile die Kosten und den zusätzlichen Aufwand überwiegen.

[Ich habe die Literatur zu diesem Thema schon sehr lange nicht mehr gelesen, daher habe ich keine geeigneten Referenzen, um diesbezüglich etwas anzubieten.]

Wenn Sie nicht erwartet haben, dass die Verteilung etwas normal ist, sondern einer anderen Verteilung ähnelt, können Sie natürlich eine geeignete Robustifizierung eines anderen parametrischen Tests durchführen.

Was ist, wenn Sie Annahmen für die Nicht-Parametrik überprüfen möchten? Einige Quellen empfehlen, vor der Anwendung eines Wilcoxon-Tests eine symmetrische Verteilung zu überprüfen, was ähnliche Probleme wie bei der Überprüfung der Normalität aufwirft.

Tatsächlich. Ich nehme an, Sie meinen den unterschriebenen Rangtest *. Wenn Sie es für gepaarte Daten verwenden, sind Sie sicher, wenn Sie davon ausgehen, dass die beiden Verteilungen abgesehen von der Positionsverschiebung die gleiche Form haben, da die Unterschiede dann symmetrisch sein sollten. Eigentlich brauchen wir gar nicht so viel. Damit der Test funktioniert, benötigen Sie eine Symmetrie unter dem Nullpunkt. es ist bei der Alternative nicht erforderlich (z. B. eine gepaarte Situation mit gleich geformten rechtsversetzten kontinuierlichen Verteilungen auf der positiven Halblinie, bei der sich die Skalen bei der Alternative, aber nicht bei der Null unterscheiden; der vorzeichenbehaftete Rangtest sollte im Wesentlichen wie erwartet in funktionieren dieser Fall). Die Interpretation des Tests ist einfacher, wenn die Alternative eine Standortverschiebung ist.

* (Wilcoxons Name ist sowohl mit dem Ein - als auch mit dem Zwei - Stichproben - Rang - Test verbunden - Rang und Rang - Summe; mit ihrem U - Test verallgemeinerten Mann und Whitney die von Wilcoxon untersuchte Situation und führten wichtige neue Ideen zur Bewertung der Nullverteilung ein, aber der Die Priorität zwischen den beiden Autorengruppen bei Wilcoxon-Mann-Whitney liegt eindeutig bei Wilcoxon. Wenn wir also nur Wilcoxon gegen Mann & Whitney betrachten, steht Wilcoxon in meinem Buch an erster Stelle, aber Stiglers Gesetz scheint mich noch einmal zu schlagen, und Wilcoxon sollten vielleicht einen Teil dieser Priorität mit einer Reihe früherer Mitwirkender teilen und (neben Mann und Whitney) die Anerkennung mit mehreren Entdeckern eines gleichwertigen Tests teilen. [4] [5])

Verweise

[1]: Zimmerman DW und Zumbo BN (1993),
Rank Transformations and the Power des Student-T-Tests und des Welch-T'-Tests für nicht normale Populationen,
Canadian Journal Experimental Psychology, 47 : 523–39.

[2]: JCF de Winter (2013),
"Using the Student's T-Test mit extrem kleinen Stichprobengrößen",
Practical Assessment, Research and Evaluation , 18 : 10, August, ISSN 1531-7714
http://pareonline.net/ getvn.asp? v = 18 & n = 10

[3]: Michael P. Fay und Michael A. Proschan (2010),
"Wilcoxon-Mann-Whitney oder t-Test? Annahmen für Hypothesentests und Mehrfachinterpretationen von Entscheidungsregeln",
Stat Surv ; 4 : 1–39.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/

[4]: Berry, KJ, Mielke, PW und Johnston, JE (2012),
"Die Zwei-Probe Rangsummentest: Frühe Entwicklung"
Electronic Journal für Geschichte der Wahrscheinlichkeitsrechnung und Statistik , Band 8, Dezember
pdf

[5]: Kruskal, WH (1957),
"Historische Anmerkungen zum ungepaarten Wilcoxon-Test mit zwei Stichproben",
Journal of the American Statistical Association , 52 , 356–360.

Glen_b
quelle
Ein paar Dinge, die ich klären möchte. Es gibt mehrere Punkte, an denen Sie erwähnen, zB "Wenn die Verteilung stark schwanzig ist, ..." (oder schief usw.) - vermutlich sollte dies als "wenn es vernünftig ist anzunehmen, dass die Verteilung stark schwanzig ist" (aus der Theorie) gelesen werden / frühere studien / was auch immer) anstatt "wenn die probe stark schwanzig ist", sonst sind wir wieder beim mehrstufigen testen, was ist das, was wir vermeiden wollen? (Ein zentrales Thema in diesem Thema ist
Silverfish,
Ja, das sollte verstanden werden als "Population ist entweder als schwerschwänzig bekannt, oder es kann vernünftigerweise erwartet werden, dass sie schwerschwänzig ist". Dazu gehören sicherlich Dinge wie Theorie (oder manchmal auch allgemeine Überlegungen zu der Situation, die nicht ganz den Status einer Theorie erreicht ), Expertenwissen und frühere Studien. Es wird nicht empfohlen, auf Schwerfälligkeit zu testen. In Situationen, in denen es einfach unbekannt ist, kann es sich lohnen, zu untersuchen, wie schlimm Dinge unter verschiedenen Verteilungen sein können, die für die spezifische Situation, die Sie haben, plausibel sind.
Glen_b
Gibt es eine Chance, dass diese bereits ausgezeichnete Antwort ein wenig detaillierter darüber aussieht, welche Optionen es gibt, um den t-Test zu "stabilisieren"?
Silverfish
Silberfischchen - Ich bin mir nicht sicher, ob ich Ihre Frage, in der Sie um Einzelheiten zur Stabilisierung gebeten werden, ausreichend beantwortet habe. Ich werde jetzt ein wenig mehr hinzufügen.
Glen_b
Vielen Dank für die Hinzufügung, ich dachte, das hat viel zur Qualität dieser Antwort beigetragen. Nachdem sich diese Frage ein wenig beruhigt hat und eine gute Anzahl von Antworten generiert hat, möchte ich die ursprüngliche Frage gut kopieren und alles entfernen, was irreführend sein könnte (zugunsten von Lesern, die nicht in der Vergangenheit gelesen haben) die Frage!). Ist es in Ordnung, wenn ich Ihre Antwort entsprechend bearbeite, damit die Anführungszeichen mit der umorganisierten Frage übereinstimmen?
Silverfish
22

Meiner Ansicht nach erkennt der prinzipielle Ansatz an, dass (1) Tests und grafische Bewertungen der Normalität eine unzureichende Empfindlichkeit aufweisen und die Interpretation der Grafiken häufig nicht objektiv ist, (2) mehrstufige Verfahren unsichere Betriebseigenschaften aufweisen, (3) viele nichtparametrische Tests ausgezeichnete Betriebseigenschaften aufweisen in Situationen, in denen parametrische Tests eine optimale Leistung haben und (4) die ordnungsgemäße Transformation von im Allgemeinen nicht die Identitätsfunktion und nichtparametrischesk t PYk-Sample-Tests sind für die gewählte Transformation unveränderlich (nicht für Tests mit einer Stichprobe wie den von Wilcoxon signierten Rangtest). In Bezug auf (2) sind mehrstufige Verfahren besonders problematisch in Bereichen wie der Arzneimittelentwicklung, in denen Aufsichtsbehörden wie die FDA zu Recht Bedenken hinsichtlich möglicher Manipulationen der Ergebnisse haben. Zum Beispiel könnte ein skrupelloser Forscher leicht vergessen, den Normalitätstest zu melden, wenn der Test zu einem niedrigen Wert führt.tP

Zusammengefasst sehen einige Vorschläge wie folgt aus:

  1. Wenn vor der Prüfung der Daten kein zwingender Grund für die Annahme einer Gaußschen Verteilung besteht und keine kovariate Anpassung erforderlich ist, verwenden Sie einen nichtparametrischen Test.
  2. Wenn eine Anpassung der Kovariate erforderlich ist, verwenden Sie die semiparametrische Regressionsverallgemeinerung des von Ihnen bevorzugten Rangtests. Für den Wilcoxon-Test ist dies das Proportional-Odds-Modell und für einen normalen Scores-Test ist dies eine ordinale Probit-Regression.

t3πY

kkloglogLink kumulatives Wahrscheinlichkeits-Ordnungsmodell Es wird angenommen, dass die Verteilungen in proportionalen Gefährdungen sind. Bei einem Logit-Link-Kumulativwahrscheinlichkeitsmodell (Proportional-Odds-Modell) wird angenommen, dass die Verteilungen durch die Proportional-Odds-Annahmen verbunden sind, dh die Logits der kumulativen Verteilungsfunktionen sind parallel. Die Form einer der Verteilungen ist irrelevant. Details finden Sie in http://biostat.mc.vanderbilt.edu/CourseBios330 in Kapitel 15 der Handouts.

Es gibt zwei Arten von Annahmen für eine häufig verwendete statistische Methode, die häufig berücksichtigt werden. Das erste sind Annahmen, die erforderlich sind, damit die Methode den Fehler vom Typ I beibehält. Die zweite bezieht sich auf die Erhaltung des Fehlers vom Typ II (Optimalität; Empfindlichkeit). Ich glaube, dass der beste Weg, um die für das zweite Modell erforderlichen Annahmen aufzudecken, darin besteht, einen nichtparametrischen Test wie oben beschrieben in ein semiparametrisches Modell einzubetten. Die tatsächliche Verbindung zwischen den beiden ergibt sich aus Rao-Efficient-Score-Tests, die sich aus dem semiparametrischen Modell ergeben. Der Zähler des Score-Tests aus einem Proportional-Odds-Modell für den Fall mit zwei Stichproben ist genau die Rang-Summen-Statistik.

Frank Harrell
quelle
1
Vielen Dank dafür, ich bin sehr mit der Philosophie dieser Antwort einverstanden - zum Beispiel schlagen viele Quellen vor, dass ich zumindest die Daten auf Normalität prüfe, bevor ich mich für einen Test entscheide. Diese Art von mehrstufigem Verfahren hat jedoch einen klaren, wenn auch subtilen Einfluss auf die Funktionsweise der Tests.
Silverfish
1
nn=15
3
10000p
4
Durch Permutationstests können Fehler vom Typ I kontrolliert werden, Fehler vom Typ II werden jedoch nicht angesprochen. Ein auf suboptimalen Statistiken basierender Permutationstest (z. B. gewöhnlicher Mittelwert und Varianz, wenn die Daten aus einer log-Gaußschen Verteilung stammen) leidet unter der Leistung.
Frank Harrell
3
Ja, Kapitel 15 in den Handouts wird in der kommenden 2. Auflage meines Buches zu einem neuen Kapitel erweitert, das ich dem Verlag nächsten Monat vorlegen werde.
Frank Harrell
13

Rand Wilcox weist in seinen Publikationen und Büchern auf einige sehr wichtige Punkte hin, von denen viele von Frank Harrell und Glen_b in früheren Beiträgen aufgeführt wurden.

  1. Der Mittelwert ist nicht unbedingt die Menge, über die wir Rückschlüsse ziehen möchten. Es gibt vielleicht andere Größen, die eine typische Beobachtung besser veranschaulichen .
  2. Bei t-Tests kann die Leistung selbst bei kleinen Abweichungen von der Normalität niedrig sein.
  3. Bei t-Tests kann die beobachtete Wahrscheinlichkeitsabdeckung erheblich von der nominalen abweichen.

Einige wichtige Vorschläge sind:

  1. Eine robuste Alternative besteht darin, getrimmte Mittelwerte oder M-Schätzer mit dem t-Test zu vergleichen. Wilcox schlägt einen um 20% reduzierten Mittelwert vor.
  2. Empirische Wahrscheinlichkeitsmethoden sind theoretisch vorteilhafter ( Owen, 2001 ), jedoch nicht unbedingt für mittlere bis kleine n.
  3. Permutationstests sind großartig, wenn man den Fehler vom Typ I kontrollieren muss, aber keine CI erhalten kann.
  4. Für viele Situationen schlägt Wilcox das Bootstrap-t vor, um die Mittelwerte zu vergleichen. In R ist dies in den Funktionen yuenbt , yhbt im WRS- Paket implementiert.
  5. Perzentil-Bootstrap ist möglicherweise besser als Perzentil-t, wenn der Zuschnitt> / = 20% beträgt. In R ist dies in der Funktion pb2gen im oben genannten WRS- Paket implementiert.

Zwei gute Referenzen sind Wilcox ( 2010 ) und Wilcox ( 2012 ).

Thomas Speidel
quelle
8

In seiner Arbeit Distribution-Free Statistical Tests (1968, S. 17–24) stellt Bradley dreizehn Kontraste zwischen dem, was er als "klassische" und "verteilungsfreie" Tests bezeichnet. Beachten Sie, dass Bradley zwischen "nicht parametrisch" und "verteilungsfrei" unterscheidet. Für die Zwecke Ihrer Frage ist dieser Unterschied jedoch nicht relevant. In diesen dreizehn sind Elemente enthalten, die sich nicht nur auf die Derivate der Tests beziehen, sondern auch auf deren Anwendungen. Diese schließen ein:

  • Wahl des Signifikanzniveaus: Klassische Tests haben kontinuierliche Signifikanzniveaus; Verteilungsfreie Tests haben normalerweise diskrete Beobachtungen der Signifikanzniveaus, so dass die klassischen Tests eine größere Flexibilität bei der Einstellung dieses Niveaus bieten.
  • Logische Gültigkeit des Ablehnungsbereichs: Verteilungsfreie Testablehnungsbereiche können weniger intuitiv verständlich sein (weder unbedingt glatt noch kontinuierlich) und können Verwirrung darüber stiften, wann der Test als Ablehnung der Nullhypothese angesehen werden sollte.
  • Art der Statistiken, die überprüfbar sind: Um Bradley direkt zu zitieren: " Statistiken, die in Form von arithmetischen Operationen bei Beobachtungsgrößen definiert sind, können mit klassischen Techniken überprüft werden, wobei diese durch Ordnungsbeziehungen (Rang) oder Kategorienhäufigkeiten usw. definiert sind verteilungsfreie Methoden: Mittelwerte und Varianzen sind Beispiele für die ersteren und Mittelwerte und die Interquartilbereiche der letzteren. "Insbesondere bei nicht normalen Verteilungen wird die Fähigkeit, andere Statistiken zu testen, wertvoll, was den verteilungsfreien Tests Gewicht verleiht .
  • Testbarkeit von Interaktionen höherer Ordnung: Bei klassischen Tests viel einfacher als bei verteilungsfreien Tests.
  • Einfluss der Stichprobengröße:Dies ist meiner Meinung nach ziemlich wichtig. Bei kleinen Stichproben (Bradley sagt etwa n = 10) kann es sehr schwierig sein, festzustellen, ob die den klassischen Tests zugrunde liegenden parametrischen Annahmen verletzt wurden oder nicht. Bei verteilungsfreien Tests müssen diese Annahmen nicht verletzt werden. Darüber hinaus sind die verteilungsfreien Tests, selbst wenn die Annahmen nicht verletzt wurden, oftmals fast so einfach anzuwenden und fast so effizient wie ein Test. Für kleine Stichprobengrößen (weniger als 10, möglich bis zu 30) favorisiert Bradley daher eine fast routinemäßige Anwendung verteilungsfreier Tests. Bei großen Stichprobengrößen überwältigt der zentrale Grenzwertsatz Parameterverletzungen, da der Stichprobenmittelwert und die Stichprobenvarianz eher dem Normalwert entsprechen und die parametrischen Tests hinsichtlich der Effizienz überlegen sein können.
  • Anwendungsbereich: Durch die Verteilungsfreiheit können solche Tests auf eine viel größere Bevölkerungsgruppe angewendet werden als klassische Tests, bei denen eine bestimmte Verteilung vorausgesetzt wird.
  • Feststellung von Verstößen gegen die Annahme einer kontinuierlichen Verteilung: Leicht zu erkennen in verteilungsfreien Tests (z. B. Vorhandensein gebundener Scores), schwerer in parametrischen Tests.
  • Auswirkung der Verletzung der Annahme einer kontinuierlichen Verteilung: Wenn die Annahme verletzt wird, wird der Test ungenau. Bradley verbringt viel Zeit damit zu erklären, wie die Grenzen der Ungenauigkeit für verteilungsfreie Tests geschätzt werden können, aber es gibt keine analoge Routine für klassische Tests.
Avraham
quelle
1
Danke für das Zitat! Bradleys Arbeit scheint ziemlich alt zu sein, also habe ich den Verdacht, dass es nicht viel Arbeit mit modernen Simulationsstudien gibt, um die Effizienz und die Typ-I / II-Fehlerraten in verschiedenen Szenarien zu vergleichen. Mich würde auch interessieren, was er über Brunner-Munzel-Tests vorschlägt - sollten sie anstelle eines U-Tests verwendet werden, wenn bekannt ist, dass die Abweichungen in beiden Gruppen nicht gleich sind?
Silverfish
1
Bradley diskutiert zwar die Effizienz, aber meistens im Zusammenhang mit der asymptotischen relativen Effizienz. Manchmal liefert er Quellen für Aussagen zur endlichen Effizienz der Stichprobengröße, aber da die Arbeit von 1968 stammt, bin ich sicher, dass seitdem viel bessere Analysen durchgeführt wurden. Apropos, wenn ich recht habe, haben Brunner und Munzel ihren Artikel im Jahr 2000 geschrieben , was erklärt, warum es in Bradley keine Erwähnung gibt.
Avraham
Ja das würde es in der Tat erklären! :) Weißt du, ob es eine aktuellere Umfrage gibt als Bradley?
Silverfish
Eine kurze Suche zeigt, dass es viele aktuelle Texte zu nicht-parametrischen Statistiken gibt. Zum Beispiel: Nichtparametrische statistische Methoden (Hollander et al., 2013), Testen nichtparametrischer Hypothesen: Rang- und Permutationsmethoden mit Anwendungen in R (Bonnini et al., 2014), Nichtparametrische statistische Inferenz, 5. Auflage (Gibbons and Chakraborti, 2010). Es gibt viele andere, die bei verschiedenen Suchen auftauchen. Da ich keine habe, kann ich keine Empfehlungen aussprechen. Es tut uns leid.
Avraham
5

Beginnend mit der Beantwortung dieser sehr interessanten Frage.

Für nicht gekoppelte Daten:

Die Durchführung von fünf Standorttests mit zwei Stichproben für verzerrte Verteilungen mit ungleichen Varianzen durch Morten W. Fagerland, Leiv Sandvik (hinter der Paywall), führt eine Reihe von Experimenten mit fünf verschiedenen Tests durch (T-Test, Welch U, Yuen-Welch, Wilcoxon-Mann) -Whitney und Brunner-Munzel) für verschiedene Kombinationen von Stichprobengröße, Stichprobenverhältnis, Abweichung von der Normalität und so weiter. Das Papier schlägt vor, Welch U im Allgemeinen,

Anhang A des Papiers listet jedoch die Ergebnisse für jede Kombination von Stichprobengrößen auf. Und für kleine Stichprobengrößen (m = 10 n = 10 oder 25) sind die Ergebnisse (wie erwartet) verwirrender - nach meiner Einschätzung der Ergebnisse (nicht der Autoren) scheinen Welch U, Brunner-Munzel ebenso gut abzuschneiden, und t-Test auch gut bei m = 10 und n = 10.

Das weiß ich bisher.

Für eine "schnelle" Lösung zitierte ich das zunehmende Bewusstsein der Ärzte für die Auswirkung von Statistiken auf die Forschungsergebnisse: Vergleichende Aussagekraft des t-Tests und des Wilcoxon-Rank-Sum-Tests in kleinen Proben Angewandte Forschung von Patrick D Bridge und Shlomo S Sawilowsky (auch hinter der Paywall) und gehen Sie direkt zu Wilcoxon, egal wie groß die Stichprobe ist, aber zum Beispiel wegen des Vorbehalts. Sollten wir immer einen nichtparametrischen Test wählen, wenn wir zwei scheinbar nicht normale Verteilungen vergleichen? von Eva Skovlund und Grete U. Fensta .

Ich habe noch keine ähnlichen Ergebnisse für gepaarte Daten gefunden

Jacques Wainer
quelle
Ich schätze die Zitate! Wird zur Verdeutlichung das "Welch U" genannt, derselbe Test auch als "Welch t" oder "Welch-Aspin t" oder (wie ich es in der Frage vielleicht falsch nannte) "t-Test mit Welch-Korrektur" bezeichnet? ?
Silverfish
Nach meinem Verständnis ist Welch U nicht das übliche Welch-Aspin - es wird nicht die Welch-Satterthwaite-Gleichung für die Freiheitsgrade verwendet, sondern eine Formel, die einen Unterschied zwischen dem Würfel und dem Quadrat der Probe aufweist Größe.
Jacques Wainer
Ist es trotz des Namens immer noch ein T-Test? Überall, wo ich nach "Welch U" suche, scheint es sich um den Welch-Aspin zu handeln, was frustrierend ist.
Silverfish
1

Simulation der Mittelwertdifferenz von Gammapopulationen

Vergleich des T-Tests und des Mann Whitney-Tests

Zusammenfassung der Ergebnisse

  • Wenn die Varianz der beiden Populationen gleich ist, hat der Mann-Whitney-Test eine größere wahre Stärke, aber auch einen größeren wahren Typ-1-Fehler als der t-Test.
  • H0
  • Wenn die Varianz zweier Populationen unterschiedlich ist, führt der Mann-Whitney-Test zu einem großen Fehler vom Typ 1, selbst wenn die Mittelwerte gleich sind. Dies wird erwartet, da Mann Whitney die Unterschiede in der Verteilung testet, nicht die Mittelwerte.
  • Der t-Test ist robust gegenüber Varianzunterschieden, aber mit identischen Mitteln

Versuch 1) Unterschiedliche Mittel, gleiche Varianz

θ

  • X1k=0.5θ=1E[X1]=kθ=0.5Var[X1]=kθ2=0.5
  • X2k=1.445θ=0.588235 E[X2]=.85Var[X2]=.5

X1X2X1X2

d=(.85.5)/.5=0.5

p

  • H0:μX1=μX2=0.5
  • H1:μX1μX2

P(reject|H0)P(reject|H1)H0H1

Quellen:

Bevölkerungsverteilung

Bildbeschreibung hier eingeben

Simulationsergebnisse

Bildbeschreibung hier eingeben

Diskussion

  • N=10
  • Bei allen Stichprobengrößen ist der Mann Whitney-Test leistungsstärker als der t-Test und in einigen Fällen um den Faktor 2
  • Für alle Stichprobengrößen weist der Mann Whitney-Test einen größeren Fehler vom Typ I auf, und zwar um den Faktor 2 bis 3
  • t-test hat eine geringe Leistung für kleine Stichproben

Diskussion : Wenn die Varianz der beiden Populationen in der Tat gleich ist, übertrifft der Mann-Whitney-Test den t-Test in Bezug auf die Leistung bei kleinen Stichproben erheblich, weist jedoch eine höhere Fehlerrate vom Typ 1 auf


Versuch 2: Unterschiedliche Varianzen, gleicher Mittelwert

  • X1k=0.5θ=1E[X1]=kθ=.5Var[X1]=kθ2=.5
  • X2k=0.25θ=2 E[X2]=.5Var[X2]=1

H1Var[X1]=Var[X2]Var[X1]Var[X2]

Diskussion Die Ergebnisse der Simulation zeigen, dass der t-Test sehr robust gegenüber unterschiedlichen Varianzen ist und der Fehler vom Typ I für alle Stichprobengrößen nahe bei 5% liegt. Wie erwartet ist die Leistung des Mann Whitney-Tests in diesem Fall schlecht, da nicht auf Mittelwertunterschiede, sondern auf Verteilungsunterschiede geprüft wird

Bildbeschreibung hier eingeben

Xavier Bourret Sicotte
quelle