Ich habe diese Gruppen, in denen die Werte Antworten auf ein 10-Punkte-Likert-Element sind:
g1 <- c(10,9,10,9,10,8,9)
g2 <- c(4,9,4,9,8,8,8)
g3 <- c(9,7,9,4,8,9,10)
Daher habe ich Kruskal-Wallis verwendet, um Unterschiede zwischen den Antworten in den Gruppen festzustellen. Das Ergebnis war:
Kruskal-Wallis chi-squared = 5.9554, df = 2, p-value = 0.05091
Wenn ich jedoch einen genauen Mann-Whitney-Test zwischen den Gruppen g1 und g2 durchführe, erhalte ich:
Exact Wilcoxon Mann-Whitney Rank Sum Test (using coin::wilcox_test)
Z = 2.3939, p-value = 0.02797
Dies ergibt einen signifikanten Unterschied bei Alpha = 0,05.
Welchen Test soll ich wählen und warum?
Antworten:
Ich stimme der Antwort von Michael Chernick zu, denke aber, dass sie etwas stärker gemacht werden kann. Ignorieren Sie in den meisten Fällen den Grenzwert von 0,05. Es ist nur für den Neyman-Pearson-Ansatz relevant, der für die inferentielle Verwendung von Statistiken in vielen Bereichen der Wissenschaft weitgehend irrelevant ist.
Beide Tests zeigen, dass Ihre Daten moderate Beweise gegen die Nullhypothese enthalten. Betrachten Sie diese Beweise im Lichte dessen, was Sie über das System wissen, und der Konsequenzen, die sich aus Entscheidungen (oder Unentschlossenheit) über den Zustand der realen Welt ergeben. Argumentieren Sie einen begründeten Fall und gehen Sie so vor, dass die Möglichkeit einer späteren Neubewertung anerkannt wird.
Ich erkläre mehr in diesem Artikel: http://www.ncbi.nlm.nih.gov/pubmed/22394284
[Nachtrag hinzugefügt im November 2019: Ich habe eine neue Referenz, in der die Probleme ausführlicher erläutert werden: https://arxiv.org/abs/1910.02042v1 ]
quelle
Jeder Gedanke, den Sie haben könnten, dass die Ergebnisse widersprüchlich sind, müsste von einem 0,05-Cut-Off als Schwarz-Weiß-Grenze ohne Grauzone in der Nähe von 0,05 stammen. Ich denke, diese Ergebnisse sind vernünftig und durchaus kompatibel.
quelle
Die Ergebnisse des Kruskal-Wallis- und Mann-Whitney-U-Tests können abweichen, weil
Daher wird nicht empfohlen, den Mann-Whitney-U-Test als Post-hoc-Test nach dem Kruskal-Wallis-Test zu verwenden.
Andere Tests wie der Dunn-Test (häufig verwendet), der Conover-Iman-Test und der Dwass-Steel-Citchlow-Fligner-Test können als Post-hoc-Test für den Kruskal-Wallis-Test verwendet werden.
quelle
Dies ist eine Antwort auf @vinesh sowie ein Blick auf das allgemeine Prinzip in der ursprünglichen Frage.
Bei mehreren Vergleichen gibt es hier wirklich zwei Probleme: Wenn wir die Anzahl der durchgeführten Vergleiche erhöhen, verfügen wir über mehr Informationen, die es einfacher machen, echte Unterschiede zu erkennen, aber die erhöhte Anzahl von Vergleichen macht es auch einfacher, nicht vorhandene Unterschiede zu erkennen (False Positives, Ausbaggern von Daten, Foltern der Daten, bis sie gestehen).
Stellen Sie sich eine Klasse mit 100 Schülern vor, jeder der Schüler erhält eine faire Münze und wird aufgefordert, die Münze zehnmal zu werfen und anhand der Ergebnisse die Nullhypothese zu testen, dass der Anteil der Köpfe 50% beträgt. Wir würden erwarten, dass die p-Werte zwischen 0 und 1 liegen, und zufällig würden wir erwarten, dass etwa 5 der Schüler p-Werte von weniger als 0,05 erhalten. Tatsächlich wären wir sehr überrascht, wenn keiner von ihnen einen p-Wert von weniger als 0,05 erhalten würde (weniger als 1% Wahrscheinlichkeit, dass dies geschieht). Wenn wir nur die wenigen signifikanten Werte betrachten und alle anderen ignorieren, werden wir fälschlicherweise zu dem Schluss kommen, dass die Münzen voreingenommen sind. Wenn wir jedoch eine Technik verwenden, die die mehrfachen Vergleiche berücksichtigt, werden wir wahrscheinlich immer noch richtig beurteilen, dass die Münzen fair sind (oder zumindest nicht ablehnen, dass sie oder fair).
Betrachten Sie andererseits einen ähnlichen Fall, in dem 10 Schüler einen Würfel werfen und bestimmen, ob der Wert in der Menge {1,2,3} oder in der Menge {4,5,6} liegt, von denen jeder 50% hat Chance jeden Wurf, wenn der Würfel fair ist (kann aber anders sein, wenn der Würfel manipuliert ist). Alle 10 Schüler berechnen p-Werte (null ist 50%) und erhalten Werte zwischen 0,06 und 0,25. In diesem Fall hat keiner von ihnen den magischen Grenzwert von 5% erreicht. Wenn Sie also die Ergebnisse einzelner Schüler betrachten, wird dies nicht zu einer nicht fairen Erklärung führen, aber alle p-Werte sind kleiner als 0,5, wenn alle Würfel fair sind dann sollten die p-Werte gleichmäßig verteilt sein und eine 50% ige Chance haben, über 0,5 zu liegen. Die Chance, 10 unabhängige p-Werte zu erhalten, die alle kleiner als 0,5 sind, wenn die Nullen wahr sind, ist geringer als die magische 0,05, und dies legt nahe, dass die Würfel voreingenommen sind.
Jetzt sind Münzwurf und Würfelwurf etwas erfunden, also ein anderes Beispiel: Ich habe ein neues Medikament, das ich testen möchte. Mein Budget ermöglicht es mir, das Medikament an 1.000 Probanden zu testen (dies ist ein paarweiser Vergleich, wobei jedes Proband seine eigene Kontrolle hat). Ich denke über 2 verschiedene Studiendesigns nach. Im ersten rekrutiere ich 1.000 Probanden, die die Studie durchführen und einen einzelnen p-Wert angeben. Im zweiten Entwurf rekrutiere ich 1.000 Probanden, teile sie jedoch in 100 10er-Gruppen auf. Ich mache die Studie für jede der 100 10er-Gruppen und berechne einen p-Wert für jede Gruppe (100 p-Gesamtwerte). Denken Sie über die möglichen Unterschiede zwischen den beiden Methoden nach und darüber, wie sich die Schlussfolgerungen unterscheiden können. Ein objektiver Ansatz würde erfordern, dass beide Studiendesigns zu derselben Schlussfolgerung führen (bei denselben 1.000 Patienten und alles andere ist dasselbe).
@mljrg, warum hast du dich entschieden, g1 und g2 zu vergleichen? Wenn dies vor dem Sammeln von Daten eine Frage von Interesse war, ist der MW-p-Wert angemessen und aussagekräftig. Wenn Sie jedoch den KW-Test durchgeführt haben, haben Sie nachgefragt, welche 2 Gruppen am unterschiedlichsten waren, und den MW-Test nur mit diesen durchgeführt sah am unterschiedlichsten aus, dann wurden die Annahmen für den MW-Test verletzt und der MW-p-Wert ist bedeutungslos und der KW-p-Wert ist der einzige mit potenzieller Bedeutung.
quelle