Leistung eines Mann Whitney-Tests im Vergleich zum Test

10

Ein Mann Whitney U-Test ist also angeblich zu 95% so leistungsfähig wie ein t-Test, wenn die t-Test-Annahmen von Normalität und homogener Varianz erfüllt sind. Ich weiß auch, dass ein Mann Whitney U-Test leistungsfähiger ist als ein T-Test, wenn diese Annahmen nicht erfüllt sind. Meine Frage ist, ist ein Mann-Whitney-Test für Daten, bei denen Annahmen nicht erfüllt sind, fast so leistungsfähig wie ein T-Test für Daten, bei denen Annahmen erfüllt sind?

Ich frage, weil ich oft Leute sehe, die Leistungsberechnungen durchführen, basierend auf der Annahme, dass sie beim Test arbeiten werden. Nachdem sie die Daten gesammelt haben, untersuchen sie die Daten und entscheiden sich stattdessen für einen Mann Whitney-Test. Sie überprüfen nicht wirklich, wie sich eine Änderung des Tests auf die Leistung auswirkt.

Vielen Dank!

Jimj
quelle
" Ich weiß auch, dass ein Mann Whitney U-Test leistungsfähiger ist als ein T-Test, wenn diese Annahmen nicht erfüllt sind. " Das ist eine zu starke Aussage. Angenommen, die Daten wurden (zum Beispiel) gleichmäßig verteilt. Sie sagen, Sie wissen, dass unter diesen Umständen ein U- Test leistungsfähiger ist als der t , aber das ist nicht der Fall.
Glen_b -Reinstate Monica

Antworten:

9

1) Der Mann-Whitney - Test wird nicht mehr mächtig sein garantiert als ein t-Test , wenn die Annahmen des t-Tests nicht erfüllt ist , wenn auch für die Art von Verletzungen wir neigen dazu , in der realen Welt zu sehen, es ist. Betrachten Sie eine Standardnormalverteilung, die bei +/- 100 abgeschnitten ist, und eine Differenz zwischen den Mittelwerten zweier Gruppen von 0,01; Dies ist nicht normal, aber beide Tests werden so ausgeführt, als ob es so wäre, da der Unterschied zwischen den beiden Verteilungen so gering ist.

2) Der t-Test ist der einheitlich leistungsstärkste Test für die Differenz zwischen den Mitteln zweier normaler Variablen bla bla bla, daher wird er von Mann-Whitney bei dieser Art von Daten nicht geschlagen, egal was passiert. Das Schlimmste, was der Mann-Whitney jemals in Bezug auf den t-Test jemals leisten kann, ist etwa 0,864 in Bezug auf die asymptotische relative Effizienz, dh es würde 1 / 0,864x so viele Daten erfordern, um die gleiche Leistung zu erzielen (asymptotisch) ( Hollander und Wolfe , nichtparametrische statistische Methoden.) Es gibt keine Grenze, die in die andere Richtung geht. Wenn wir einige Zahlen von Hollander und Wolfe reproduzieren, erhalten wir für verschiedene Verteilungen ein ARE des MW für den t-Test von:

  1. Normal: 0,955
  2. Uniform: 1,0 <- auch ein Gegenbeispiel dafür, dass das MW für nicht normale Dist'ns besser ist als das t
  3. Logistik: 1.097
  4. Doppelte Exponentialfunktion: 1.5
  5. Exponentiell: 3.0

Der Punkt ist natürlich, dass Sie sich nicht mit dem Mann-Whitney-Test anstelle des T-Tests in den Fuß schießen können, aber das Gegenteil ist nicht der Fall.

Jbowman
quelle
inf
@ PeterFlom Interessant in der Tat! Die Differenz zwischen dem Grenzwert und dem Wert am Grenzwert reckt den Kopf; Das Pitman ARE ist das erstere, nicht das letztere.
Jbowman
2
@PeterFlom ARE bezieht sich auf das Verhältnis der zweiten Ableitungen ("Krümmung") der Leistungskurven bei Null, wenn die Stichprobengröße gegen unendlich geht. Es ist möglich, dass eine Leistungskurve dort eine Ableitung von Null Sekunden hat. In der Praxis, bei kleinen bis mittelgroßen Stichproben, sind die beiden Stichproben t im Cauchy in Ordnung, wenn Sie nichts dagegen haben, dass Ihre Signifikanzniveaus viel niedriger als die Nennwerte sind.
Glen_b -Reinstate Monica
Mit anderen Worten, nehmen wir an, ich war faul und wollte meine Normalitätsannahmen usw. nicht überprüfen. Ich habe mich einfach dafür entschieden, einen MW-Test anstelle eines T-Tests zu verwenden. Ich könnte den MW-Test verwenden und sagen, dass ich im schlimmsten Fall 1 / 0,864x so viele Daten benötigen würde, um das gleiche Leistungsniveau wie beim Test zu erreichen, bei dem alle Annahmen erfüllt wurden. Ist das sinnvoll?
Jimj
1
@ Jimj nein, das ist nicht was es bedeutet. Sie könnten den MW-Test verwenden und sagen, dass Sie (in großen Stichproben) im schlimmsten Fall 1 / 0,864-mal so viele Daten benötigen würden, um das gleiche Leistungsniveau wie beim Test mit Datensätzen aus derselben Verteilung zu erreichen (dass 0,864 nicht auftritt wenn alle Annahmen des t erfüllt sind ... wenn sie erfüllt sind, beträgt der ARE 0,955)
Glen_b - Monica
10

Ist ein Mann-Whitney-Test für Daten, bei denen Annahmen nicht erfüllt sind, fast so leistungsfähig wie ein T-Test für Daten, bei denen Annahmen erfüllt sind?

Ein Satz wie "so mächtig" funktioniert nicht wirklich als allgemeine Aussage.

Die Leistung ist in verschiedenen Verteilungsmodellen nicht besonders vergleichbar. Die Größe eines bestimmten Effekts hat in verschiedenen Teilen der Verteilung unterschiedliche Bedeutungen. Stellen Sie sich vor, Sie haben eine Verteilung, die ziemlich hoch ist, aber einen schweren Schwanz hat. Inwiefern ähnelt eine bestimmte Abweichungsgröße etwas mit einem viel flacheren Zentrum und einem kleineren Schwanz? Eine kleine Abweichung ist möglicherweise genauso leicht zu erfassen, aber eine große Abweichung ist möglicherweise (im Vergleich zu der anderen Verteilungsmöglichkeit, für die wir die Leistung vergleichen möchten) schwieriger.

Bei zwei möglichen Sätzen von Normalverteilungen, einem Paar mit einem großen SD und einem Paar mit einem kleinen SD, ist es leicht zu sagen: „Nun, die Leistung wird nur mit der Standardabweichung skaliert. Wenn wir unsere Effektgröße als Anzahl der Standardabweichungen definieren, können wir die beiden Leistungskurven in Beziehung setzen.

Aber jetzt mit unterschiedlich geformten Verteilungen gibt es keine offensichtliche Wahl der Skala. Wir müssen einige Entscheidungen treffen, wie wir sie vergleichen wollen. Welche Entscheidungen wir treffen, bestimmt, wie sie "vergleichen".

Wie vergleiche ich beispielsweise die Leistung, wenn die Daten Cauchy sind, mit der Leistung, wenn es sich bei den Daten um eine skalierte Beta handelt (2,2)? Was ist eine vergleichbare Effektgröße? Der Cauchy unten hat mehr von seiner Verteilung zwischen -1 und 1 und weniger von seiner Verteilung zwischen -3 und 3 als der andere. Ihre Interquartilbereiche sind beispielsweise unterschiedlich. Was ist unsere Vergleichsbasis?

Cauchy vs skalierte Beta

Wenn Sie dieses Rätsel lösen können, prüfen Sie nun, ob eine der Verteilungen nach links und die andere bimodal ist oder eine Vielzahl anderer Möglichkeiten.

Sie können die Leistung immer noch unter bestimmten Annahmen berechnen, aber der Vergleich eines Tests über verschiedene Verteilungsannahmen hinweg anstelle von zwei Tests unter einer bestimmten Verteilungsannahme ist konzeptionell sehr schwierig.

Glen_b -Reinstate Monica
quelle