Welches Ergebnis ist zu wählen, wenn Kruskal-Wallis und Mann-Whitney widersprüchliche Ergebnisse zu liefern scheinen?

10

Ich habe diese Gruppen, in denen die Werte Antworten auf ein 10-Punkte-Likert-Element sind:

g1 <- c(10,9,10,9,10,8,9)
g2 <- c(4,9,4,9,8,8,8)
g3 <- c(9,7,9,4,8,9,10)

Daher habe ich Kruskal-Wallis verwendet, um Unterschiede zwischen den Antworten in den Gruppen festzustellen. Das Ergebnis war:

Kruskal-Wallis chi-squared = 5.9554, df = 2, p-value = 0.05091

Wenn ich jedoch einen genauen Mann-Whitney-Test zwischen den Gruppen g1 und g2 durchführe, erhalte ich:

Exact Wilcoxon Mann-Whitney Rank Sum Test (using coin::wilcox_test)
Z = 2.3939, p-value = 0.02797

Dies ergibt einen signifikanten Unterschied bei Alpha = 0,05.

Welchen Test soll ich wählen und warum?

mljrg
quelle
1
Für ein paar Lacher und zum Thema Schwarz-Weiß-Cut-Offs: mchankins.wordpress.com/2013/04/21/still-not-significant-2
Hank

Antworten:

11

Ich stimme der Antwort von Michael Chernick zu, denke aber, dass sie etwas stärker gemacht werden kann. Ignorieren Sie in den meisten Fällen den Grenzwert von 0,05. Es ist nur für den Neyman-Pearson-Ansatz relevant, der für die inferentielle Verwendung von Statistiken in vielen Bereichen der Wissenschaft weitgehend irrelevant ist.

Beide Tests zeigen, dass Ihre Daten moderate Beweise gegen die Nullhypothese enthalten. Betrachten Sie diese Beweise im Lichte dessen, was Sie über das System wissen, und der Konsequenzen, die sich aus Entscheidungen (oder Unentschlossenheit) über den Zustand der realen Welt ergeben. Argumentieren Sie einen begründeten Fall und gehen Sie so vor, dass die Möglichkeit einer späteren Neubewertung anerkannt wird.

Ich erkläre mehr in diesem Artikel: http://www.ncbi.nlm.nih.gov/pubmed/22394284

[Nachtrag hinzugefügt im November 2019: Ich habe eine neue Referenz, in der die Probleme ausführlicher erläutert werden: https://arxiv.org/abs/1910.02042v1 ]

Michael Lew
quelle
@MichaelChernick Ich habe von Ihnen gelernt, dass Statistik viel mehr beinhaltet als nur nach "p <0,05" zu suchen. Michael Lew: Ich habe Ihr Papier heruntergeladen und werde es mit Sicherheit lesen. Ich werde Ihrem Vorschlag folgen, um in dieser Situation eine gute Begründung für meine Daten zu haben. Danke euch allen!
mljrg
3
@MichaelLew Ich teile nicht Ihre trübe Ansicht über den Neyman-Pearson-Ansatz zum Testen von Hypothesen. Ich denke immer noch, dass es grundlegend ist, häufig zu schließen. Es ist nur die strikte Einhaltung des 0,05-Niveaus, gegen das ich Einwände habe.
Michael R. Chernick
@MichaelChernick Wollen Sie damit sagen, dass man vor dem Experiment einen Grenzwert für die Signifikanz wählen sollte oder dass Sie ihn nach Eingang der Ergebnisse auswählen können? Der erste ist in Ordnung, der zweite jedoch nicht. Der Neyman-Pearson-Ansatz befasst sich mit Fehlerraten, und die Fehlerrate vom Typ I ist nur geschützt, wenn der Grenzwert für die Signifikanz im Voraus gewählt wird. Wenn Sie also jemandem raten, dass etwas mehr als 0,05 nahe genug ist, weil er möglicherweise einen höheren Grenzwert gewählt hat, verwenden Sie nicht den Neyman-Pearson-Ansatz, sondern einen schlecht geformten Hybridansatz, wie ich in dem verlinkten Artikel erläutere.
Michael Lew
Menschen können 0,01, 0,05 oder 0,10 wählen, wenn sie wollen. Dies sollte erfolgen, ohne von den Daten beeinflusst zu werden. Aber die Wahl von 0,01 oder 0,05 ist nicht das Thema, auf das ich mich beziehe. Es ist der Schwarz-Weiß-Glaube an das Signifikanzniveau, da diese 0,049 statistische Signifikanz bedeuten und 0,0501 nicht!
Michael R. Chernick
Wissenschaftler sind an Beweisen interessant, aber sie sind nicht an die Methode gebunden, mit der die Bedeutung bestimmt wird.
Michael R. Chernick
13

12

12

Jeder Gedanke, den Sie haben könnten, dass die Ergebnisse widersprüchlich sind, müsste von einem 0,05-Cut-Off als Schwarz-Weiß-Grenze ohne Grauzone in der Nähe von 0,05 stammen. Ich denke, diese Ergebnisse sind vernünftig und durchaus kompatibel.

Michael R. Chernick
quelle
2
Sie werden Ihre Antwort besser kommunizieren, wenn Sie sie erneut auf Fehler (Interpunktion, Grammatik, Typografie und Rechtschreibung) lesen und eine effektive Formatierung verwenden. Bitte überprüfen Sie die Markdown-Hilfeseite .
whuber
Die klassischere Ansicht ist, dass Sie bei Ihrem ersten Test keine statistische Signifikanz gefunden haben. Daher sollten Sie (in einer Fachpublikation) keine weiteren Tests als statistisch signifikante Hinweise auf Unterschiede zwischen Gruppen melden. Verwenden Sie dazu ein anderes Alpha als 0,05. Dies ist (aus klassischer Sicht) besonders problematisch, da Sie vor Durchführung des Tests nicht das höhere Alpha gewählt haben, sodass Ihr Alpha unbekannt ist. Wenn Sie versuchen, Ihre Daten zu verstehen und Ihr eigenes zukünftiges Forschungsprogramm zu leiten, können Sie natürlich den Unterschied zwischen den Gruppen 1 und 2 zur Kenntnis nehmen.
Joel W.
@ JoelW. Wollen Sie mir sagen, dass 0.05091 wirklich anders ist als 0.05? Auf jeden Fall geht es mir nicht darum, die Schlussfolgerungen zu melden, sondern zu sagen, dass die beiden Tests nicht in Konflikt stehen. Ich bin damit einverstanden, dass die Art und Weise, wie Sie die Daten analysieren, im Voraus festgelegt wird, bevor Sie sich die Daten ansehen.
Michael R. Chernick
1
@whuber Sorry, dass du den Beitrag nicht früher bearbeitet hast. Ich hoffe es sieht jetzt viel besser aus.
Michael R. Chernick
@JoelW Ihre "klassischere" Sichtweise ist eigentlich Neymans "induktives Verhalten" -Ansatz zur Inferenz. Es ist relevant für einen kleinen Teil der Verwendung von Statistiken zur Unterstützung von Schlussfolgerungen. Es ist sehr bedauerlich, dass es so oft als klassisch präsentiert wird.
Michael Lew
4

Die Ergebnisse des Kruskal-Wallis- und Mann-Whitney-U-Tests können abweichen, weil

  • Die für den Mann-Whitney-U-Test verwendeten Ränge entsprechen nicht den für den Kruskal-Wallis-Test verwendeten Rängen. und
  • Die Rang-Summen-Tests verwenden nicht die gepoolte Varianz, die durch die Kruskal-Wallis-Nullhypothese impliziert wird.

Daher wird nicht empfohlen, den Mann-Whitney-U-Test als Post-hoc-Test nach dem Kruskal-Wallis-Test zu verwenden.

Andere Tests wie der Dunn-Test (häufig verwendet), der Conover-Iman-Test und der Dwass-Steel-Citchlow-Fligner-Test können als Post-hoc-Test für den Kruskal-Wallis-Test verwendet werden.

Dr. Nisha Arora
quelle
3

Dies ist eine Antwort auf @vinesh sowie ein Blick auf das allgemeine Prinzip in der ursprünglichen Frage.

Bei mehreren Vergleichen gibt es hier wirklich zwei Probleme: Wenn wir die Anzahl der durchgeführten Vergleiche erhöhen, verfügen wir über mehr Informationen, die es einfacher machen, echte Unterschiede zu erkennen, aber die erhöhte Anzahl von Vergleichen macht es auch einfacher, nicht vorhandene Unterschiede zu erkennen (False Positives, Ausbaggern von Daten, Foltern der Daten, bis sie gestehen).

Stellen Sie sich eine Klasse mit 100 Schülern vor, jeder der Schüler erhält eine faire Münze und wird aufgefordert, die Münze zehnmal zu werfen und anhand der Ergebnisse die Nullhypothese zu testen, dass der Anteil der Köpfe 50% beträgt. Wir würden erwarten, dass die p-Werte zwischen 0 und 1 liegen, und zufällig würden wir erwarten, dass etwa 5 der Schüler p-Werte von weniger als 0,05 erhalten. Tatsächlich wären wir sehr überrascht, wenn keiner von ihnen einen p-Wert von weniger als 0,05 erhalten würde (weniger als 1% Wahrscheinlichkeit, dass dies geschieht). Wenn wir nur die wenigen signifikanten Werte betrachten und alle anderen ignorieren, werden wir fälschlicherweise zu dem Schluss kommen, dass die Münzen voreingenommen sind. Wenn wir jedoch eine Technik verwenden, die die mehrfachen Vergleiche berücksichtigt, werden wir wahrscheinlich immer noch richtig beurteilen, dass die Münzen fair sind (oder zumindest nicht ablehnen, dass sie oder fair).

Betrachten Sie andererseits einen ähnlichen Fall, in dem 10 Schüler einen Würfel werfen und bestimmen, ob der Wert in der Menge {1,2,3} oder in der Menge {4,5,6} liegt, von denen jeder 50% hat Chance jeden Wurf, wenn der Würfel fair ist (kann aber anders sein, wenn der Würfel manipuliert ist). Alle 10 Schüler berechnen p-Werte (null ist 50%) und erhalten Werte zwischen 0,06 und 0,25. In diesem Fall hat keiner von ihnen den magischen Grenzwert von 5% erreicht. Wenn Sie also die Ergebnisse einzelner Schüler betrachten, wird dies nicht zu einer nicht fairen Erklärung führen, aber alle p-Werte sind kleiner als 0,5, wenn alle Würfel fair sind dann sollten die p-Werte gleichmäßig verteilt sein und eine 50% ige Chance haben, über 0,5 zu liegen. Die Chance, 10 unabhängige p-Werte zu erhalten, die alle kleiner als 0,5 sind, wenn die Nullen wahr sind, ist geringer als die magische 0,05, und dies legt nahe, dass die Würfel voreingenommen sind.

Jetzt sind Münzwurf und Würfelwurf etwas erfunden, also ein anderes Beispiel: Ich habe ein neues Medikament, das ich testen möchte. Mein Budget ermöglicht es mir, das Medikament an 1.000 Probanden zu testen (dies ist ein paarweiser Vergleich, wobei jedes Proband seine eigene Kontrolle hat). Ich denke über 2 verschiedene Studiendesigns nach. Im ersten rekrutiere ich 1.000 Probanden, die die Studie durchführen und einen einzelnen p-Wert angeben. Im zweiten Entwurf rekrutiere ich 1.000 Probanden, teile sie jedoch in 100 10er-Gruppen auf. Ich mache die Studie für jede der 100 10er-Gruppen und berechne einen p-Wert für jede Gruppe (100 p-Gesamtwerte). Denken Sie über die möglichen Unterschiede zwischen den beiden Methoden nach und darüber, wie sich die Schlussfolgerungen unterscheiden können. Ein objektiver Ansatz würde erfordern, dass beide Studiendesigns zu derselben Schlussfolgerung führen (bei denselben 1.000 Patienten und alles andere ist dasselbe).

@mljrg, warum hast du dich entschieden, g1 und g2 zu vergleichen? Wenn dies vor dem Sammeln von Daten eine Frage von Interesse war, ist der MW-p-Wert angemessen und aussagekräftig. Wenn Sie jedoch den KW-Test durchgeführt haben, haben Sie nachgefragt, welche 2 Gruppen am unterschiedlichsten waren, und den MW-Test nur mit diesen durchgeführt sah am unterschiedlichsten aus, dann wurden die Annahmen für den MW-Test verletzt und der MW-p-Wert ist bedeutungslos und der KW-p-Wert ist der einzige mit potenzieller Bedeutung.

Greg Snow
quelle