Wenn wir Experimente (mit kleinen Probengrößen (normalerweise beträgt die Probengröße pro Behandlungsgruppe etwa 7 bis 8)) mit zwei Gruppen durchführen, verwenden wir einen T-Test, um den Unterschied zu testen. Wenn wir jedoch eine ANOVA durchführen (offensichtlich für mehr als zwei Gruppen), verwenden wir etwas nach dem Vorbild von Bonferroni (LSD / # of pairwise comparisons) oder Tukey's als Post-hoc, und als Student wurde ich gewarnt unter Verwendung von Fisher's Least Significant Difference (LSD).
Nun ist die Sache, LSD ähnelt dem paarweisen t-Test (habe ich recht?), Und das einzige, was nicht berücksichtigt wird, ist, dass wir mehrere Vergleiche durchführen. Wie wichtig ist das bei etwa 6 Gruppen, wenn die ANOVA selbst von Bedeutung ist?
Oder mit anderen Worten, gibt es einen wissenschaftlichen / statistischen Grund für die Verwendung eines Fisher's LSD?
quelle
Antworten:
Fischers LSD ist in der Tat eine Reihe paarweiser t-Tests, wobei jeder Test den mittleren quadratischen Fehler aus der signifikanten ANOVA als gepoolte Varianzschätzung verwendet (und natürlich die zugehörigen Freiheitsgrade nimmt). Dass die ANOVA signifikant ist, ist eine zusätzliche Einschränkung dieses Tests.
Dies beschränkt die familienbezogene Fehlerrate auf Alpha, und zwar nur in dem Spezialfall von 3 Gruppen. Howell hat eine sehr gute und relativ einfache Erklärung dafür in Kapitel 16 seines Buches Grundlegende Statistik für die Verhaltenswissenschaften, 8. Auflage, David C. Howell .
Über 3 Gruppen bläst sich Alpha schnell auf (wie @Alexis oben bemerkt hat). Es ist sicherlich nicht für 6 Gruppen geeignet. Ich glaube, dass es diese begrenzte Anwendbarkeit ist, die die meisten Leute veranlasst, vorzuschlagen, sie als Option zu ignorieren.
quelle
Wie wichtig sind Mehrfachvergleiche bei 6 Gruppen? Naja ... bei sechs Gruppen handelt es sich um maximal möglichepaarweisenachträglicheVergleiche. Ich werde den unschätzbaren Randall Munroe auf die Wichtigkeit mehrerer Vergleiche eingehen lassen:6 ( 6 - 1 )2= 15
Und ich werde hinzufügen, dass, wenn Sie, wie in Ihrem Eröffnungssatz, vorschlagen, dass Sie manchmal sieben Gruppen haben, die maximale Anzahl von paarweisen Post-Hoc- Tests 7 ( 7 - 1 ) beträgt.7 ( 7 - 1 )2= 21
quelle
Der Fischertest ist so schlecht, wie jeder sagt, er ist aus Sicht von Neyman-Pearson und wenn Sie tun, was Ihre Frage impliziert - nach einem signifikanten ANOVA-Test wird jeder einzelne Unterschied festgestellt. Sie können dies in vielen veröffentlichten Artikeln sehen . Es ist jedoch weder notwendig noch empfehlenswert, alle Unterschiede nach einer ANOVA zu testen. Der Fisher-Test wurde nicht nach einer Neyman-Pearson-Theorie der statistischen Folgerung erstellt.
Es ist wichtig zu bedenken, dass Fisher, als er die LSD vorschlug, die Mehrfachprüfung nicht wirklich als wichtiges Problem ansah, da er die Signifikanzgrenze nicht als feste Regel für die Entscheidung ansah, ob Ergebnisse wichtig waren oder nicht. Man könnte eine LSD konstruieren, um auf einfache Weise die Daten dahingehend zu untersuchen, wo möglicherweise signifikante Ergebnisse vorliegen, nicht jedoch der Schiedsrichter, was bedeutsam ist. Denken Sie daran, es war Fisher, der sagte, Sie sollten nur mehr Probanden ausführen, wenn p > 0,05 ist.
Und warum halten Sie es für eine gute Idee, alles zu testen? Überlegen Sie, warum Sie überhaupt eine ANOVA durchführen. Ihnen wurde wahrscheinlich beigebracht, dass es problematisch ist, mehrere T-Tests durchzuführen, wie Sie in Ihrer Frage ausführlich darlegen. Warum leiten Sie sie dann oder ihr Äquivalent danach? Ich weiß, dass es passiert, aber nach einer ANOVA muss ich noch einen Test durchführen. Eine ANOVA sagt Ihnen, dass Ihr Datenmuster nicht aus einer Menge gleicher Werte besteht, sondern dass dies möglicherweise eine Bedeutung hat. Viele Leute sind der Warnung verfallen, dass der Test Ihnen nicht sagt, wo die bedeutungsvollen Teile sind, aber sie vergessen, dass die Daten und Theorien Ihnen das sagen.
quelle
Die Argumentation hinter Fisher's LSD kann auf Fälle über N = 3 hinaus ausgedehnt werden .
Ich werde den Fall von vier Gruppen im Detail besprechen. Um die familienweise Typ-I-Fehlerrate bei 0,05 oder darunter zu halten, reicht ein Mehrfachvergleichskorrekturfaktor von 3 (dh ein Alpha von 0,05 / 3 pro Vergleich) aus, obwohl es sechs Post-hoc-Vergleiche zwischen den vier Gruppen gibt. Das ist weil:
Das erschöpft die Möglichkeiten. In allen Fällen bleibt die Wahrscheinlichkeit, einen oder mehrere p- Werte unter 0,05 für Gruppen zu finden, deren wahre Mittelwerte gleich sind, bei oder unter 0,05, wenn der Korrekturfaktor für Mehrfachvergleiche 3 beträgt, und dies ist die Definition der familienweisen Fehlerrate.
Diese Argumentation für vier Gruppen ist eine Verallgemeinerung von Fischers Erklärung für seine Methode mit dem geringsten signifikanten Unterschied in drei Gruppen. Für N Gruppen beträgt der Korrekturfaktor ( N -1) ( N -2) / 2 , wenn der Omnibus-Anova-Test signifikant ist . Daher ist die Bonferroni-Korrektur um einen Faktor von N ( N- 1) / 2 zu stark. Es reicht aus, einen Alpha-Korrekturfaktor von 1 für N = 3 zu verwenden (daher funktioniert Fisher's LSD für N = 3), einen Faktor von 3 für N = 4, einen Faktor von 6 für N = 5, einen Faktor von 10 für N = 6 und so weiter.
quelle