Benötigen wir einen globalen Test vor Post-Hoc-Tests?

54

Ich höre oft, dass Post-hoc-Tests nach einer ANOVA nur verwendet werden können, wenn die ANOVA selbst signifikant war.

  • Bei Post-Hoc-Tests werden jedoch die Werte angepasst, um die globale Typ-I-Fehlerrate bei 5% zu halten, nicht wahr?p
  • Warum brauchen wir also zuerst den globalen Test?
  • Wenn wir keinen globalen Test benötigen, ist die Terminologie "post hoc" korrekt?

  • Oder gibt es mehrere Arten von Post-hoc-Tests, von denen einige ein signifikantes globales Testergebnis voraussetzen und andere ohne diese Annahme?

sogar
quelle

Antworten:

58

Da mehrfache Vergleichstests oft als "Post-Tests" bezeichnet werden, würde man meinen, sie folgen logischerweise der Einweg-ANOVA. Tatsächlich ist das nicht so.

" Eine unglückliche gängige Praxis besteht darin, mehrere Vergleiche nur dann anzustellen, wenn die Rumpfhypothese der Homogenität verworfen wird. " ( Hsu, Seite 177 )

Werden die Ergebnisse der Nachuntersuchungen gültig sein, wenn der Gesamt-P-Wert für die ANOVA größer als 0,05 ist?

Überraschenderweise lautet die Antwort ja. Mit einer Ausnahme sind Nachuntersuchungen auch dann gültig, wenn die gesamte ANOVA keinen signifikanten Unterschied zwischen den Mitteln ergab.

Die Ausnahme ist der erste erfundene Mehrfachvergleichstest, der geschützte Fisher Least Significant Difference (LSD) -Test. Der erste Schritt des geschützten LSD-Tests besteht darin, zu überprüfen, ob die gesamte ANOVA die Nullhypothese identischer Mittelwerte ablehnt. Ist dies nicht der Fall, sollten keine Einzelvergleiche durchgeführt werden. Dieser geschützte LSD-Test ist jedoch veraltet und wird nicht mehr empfohlen.

Ist es möglich, ein "signifikantes" Ergebnis aus einem Test mit mehreren Vergleichen zu erhalten, auch wenn die gesamte ANOVA nicht signifikant war?

Ja, es ist möglich. Ausnahme ist der Scheffe-Test. Es ist mit dem gesamten F-Test verflochten. Wenn die Gesamt-ANOVA einen P-Wert von mehr als 0,05 hat, findet der Scheffe-Test keine signifikanten Nachprüfungen. In diesem Fall ist die Durchführung von Nachuntersuchungen nach einer insgesamt nicht signifikanten ANOVA eine Zeitverschwendung, führt jedoch nicht zu ungültigen Schlussfolgerungen. Andere mehrfache Vergleichstests können jedoch (manchmal) signifikante Unterschiede feststellen, selbst wenn die ANOVA insgesamt keine signifikanten Unterschiede zwischen den Gruppen zeigte.

Wie kann ich den offensichtlichen Widerspruch zwischen der Aussage einer ANOVA, dass alle Gruppenmittel identisch sind, und der Feststellung von Unterschieden nach dem Test verstehen?

Die allgemeine Einweg-ANOVA testet die Nullhypothese, dass alle Behandlungsgruppen identische Mittelwerte aufweisen, sodass jeder beobachtete Unterschied auf zufällige Stichproben zurückzuführen ist. Jeder Post-Test testet die Nullhypothese, dass zwei bestimmte Gruppen identische Mittelwerte haben.

Die Nachuntersuchungen sind fokussierter, sodass Unterschiede zwischen den Gruppen auch dann festgestellt werden können, wenn die ANOVA insgesamt angibt, dass die Unterschiede zwischen den Mitteln statistisch nicht signifikant sind.

Sind die Ergebnisse der gesamten ANOVA überhaupt nützlich?

ANOVA testet die allgemeine Nullhypothese, dass alle Daten aus Gruppen mit identischen Mitteln stammen. Wenn das Ihre experimentelle Frage ist - liefern die Daten überzeugende Beweise dafür, dass die Mittel nicht alle identisch sind -, dann ist ANOVA genau das, was Sie wollen. Häufiger werden Ihre experimentellen Fragen fokussierter und durch mehrere Vergleichstests (Post-Tests) beantwortet. In diesen Fällen können Sie die ANOVA-Gesamtergebnisse ignorieren und direkt zu den Ergebnissen nach dem Test springen.

Beachten Sie, dass alle Mehrfachvergleichsberechnungen das Mittelwert-Quadrat-Ergebnis aus der ANOVA-Tabelle verwenden. Selbst wenn Sie sich nicht für den Wert von F oder den P-Wert interessieren, müssen Sie für die Nachprüfungen dennoch die ANOVA-Tabelle berechnen.

Harvey Motulsky
quelle
1
Dies ist eine großartige Antwort, Harvey - danke, dass du sie geschrieben hast!
pmgjones
3
(+1) Die letzten beiden Absätze bieten einen guten Kontext für das Verständnis und die Wertschätzung der gesamten Antwort.
whuber
4
Hervorragende Antwort, und ich füge einige Zitate von Maxwell und Delaney (2004) hinzu: "... Diese Methoden [z. B. Bonferroni, Tukey, Dunnet usw.] sollten als Ersatz für den Omnibus-Test angesehen werden, da sie alphaEW bei Ihnen steuern Das Erfordernis eines signifikanten Omnibus-Tests, bevor eine dieser Analysen durchgeführt werden kann, dient nur dazu, das AlphaEW unter den gewünschten Wert zu senken (Bernhardson, 1975) und damit die Leistung in unangemessener Weise zu verringern. "(S. 236) .
Dfife
Ich mag "so haben Macht, Unterschiede zwischen Gruppen zu finden ..."
SmallChess
Obwohl nicht in der Frage, denke ich, sollte ich erwähnen - da es möglicherweise nicht offensichtlich ist - dass die umgekehrte Situation auch in einigen Situationen möglich ist (die ein Omnibus-Test ablehnt, aber keine paarweisen Vergleiche)
Glen_b
25

(1) Post-hoc- Tests können die nominelle globale Fehlerrate Typ I erreichen oder nicht, abhängig davon, (a) ob der Analyst die Anzahl der Tests einstellt und (b) inwieweit die Post-hoc- Tests unabhängig von einer sind Ein weiterer. Die erstmalige Anwendung eines globalen Tests bietet einen soliden Schutz vor dem Risiko, dass (auch versehentlich) falsche "signifikante" Ergebnisse aus dem Nachhinein-Durchsuchen von Daten aufgedeckt werden.

(2) Es liegt ein Stromversorgungsproblem vor. Es ist allgemein bekannt, dass ein globaler ANOVA F-Test auch dann Mittelwertunterschiede erkennen kann, wenn kein einzelner t-Test eines der Mittelwertpaare ein signifikantes Ergebnis liefert. Mit anderen Worten, in einigen Fällen können die Daten Aufschluss darüber geben, dass sich die wahren Mittelwerte wahrscheinlich unterscheiden, sie können jedoch nicht mit ausreichender Sicherheit identifizieren, welche Mittelwertpaare sich unterscheiden.

whuber
quelle
Betreff (2): Wenn Sie sagen, dass eine Einweg-ANOVA einen signifikanten Unterschied melden kann, wenn keiner der paarweisen t-Tests dies tut, beziehen Sie sich auf einfache, nicht angepasste ("non post", z. B. nicht Tukeys Prozedur oder irgendetwas) T-Tests? Ich dachte, das wäre niemals möglich, habe ich mich geirrt?
Amöbe sagt Reinstate Monica
@amoeba Das stimmt; Ich beziehe mich auf nicht angepasste paarweise Tests. Vielen Dank für die Klärung dieses Punktes.
Whuber
Vielen Dank, @whuber. Ich habe versucht, eine Diskussion über diesen Punkt hier auf CrossValidated zu finden, aber ohne Erfolg. Deshalb habe ich meine eigene Frage gestellt, wie eine solche Situation möglich ist: stats.stackexchange.com/questions/83030/… . Ich wäre sehr dankbar, wenn Sie dort näher darauf eingehen könnten!
Amöbe sagt Reinstate Monica
3
@amoba und @whuber: Das wissen Sie wahrscheinlich, aber ich möchte es trotzdem klären. Beachten Sie, dass der ANOVA-Test möglicherweise signifikant ist, auch wenn keiner der Tukey-HSD-Tests signifikant ist. Einfaches R-Beispiel mit einem ausgeglichenen Datensatz mit drei Gruppen:set.seed(249); group = rep(1:3, each=2); y = group + rnorm(6); mod = aov(y~factor(group)); summary(mod); TukeyHSD(mod); plot(y~group)
Karl Ove Hufthammer
1
Könnten Sie nicht zumindest vermuten, dass es einen Unterschied zwischen den beiden Mitteln mit dem größten Unterschied zwischen ihnen gab, da die Nullhypothese der ANOVA lautet, dass sich mindestens ein Paar von Mitteln voneinander unterscheidet?
Speldosa