Kann eine Einweg- ANOVA (mit Gruppen oder "Niveaus") einen signifikanten Unterschied melden, wenn keiner der paarweisen N ( N - 1 ) / 2 t-Tests dies tut?
In dieser Antwort schrieb @whuber:
Es ist allgemein bekannt, dass ein globaler ANOVA-F-Test eine Mittelwertdifferenz erkennen kann, selbst wenn kein individueller [unangepasster paarweiser] t-Test eines der Mittelwertpaare ein signifikantes Ergebnis liefert.
so anscheinend ist es möglich, aber ich verstehe nicht wie. Wann passiert es und wie würde die Intuition dahinter aussehen? Vielleicht kann jemand ein einfaches Spielzeugbeispiel für eine solche Situation liefern?
Einige weitere Bemerkungen:
Das Gegenteil ist eindeutig möglich: Die gesamte ANOVA kann nicht signifikant sein, während einige der paarweisen t-Tests fälschlicherweise signifikante Unterschiede melden (dh dies wären falsch positive Ergebnisse).
Meine Frage ist über Standard, nicht für mehrere Vergleiche T-Tests angepasst. Wenn angepasste Tests verwendet werden (wie z. B. das HSD-Verfahren von Tukey), ist es möglich, dass sich keiner von ihnen als signifikant herausstellt, obwohl es sich um die gesamte ANOVA handelt. Dies wird hier in mehreren Fragen behandelt, z. B. Wie kann ich eine signifikante Gesamt-ANOVA erhalten, aber keine signifikanten paarweisen Unterschiede zum Vorgehen von Tukey? und Signifikante ANOVA-Wechselwirkung, aber nicht signifikante paarweise Vergleiche .
Aktualisieren. Meine Frage bezog sich ursprünglich auf die üblichen paarweisen t-Tests mit zwei Stichproben . Wie @whuber jedoch in den Kommentaren ausführte, werden t-Tests im ANOVA-Kontext normalerweise als post-hoc- Kontraste auf der Grundlage der ANOVA-Schätzung der gruppeninternen Varianz verstanden, die über alle Gruppen hinweg zusammengefasst wird (was bei zwei nicht der Fall ist) -Beispiel T-Test). Es gibt also zwei verschiedene Versionen meiner Frage, und die Antwort auf beide ist positiv. Siehe unten.
quelle
Antworten:
Hinweis: Mit meinem ursprünglichen Beispiel stimmte etwas nicht. Ich wurde dummerweise von Rs stillem Argument des Recyclings erwischt. Mein neues Beispiel ist meinem alten sehr ähnlich. Hoffentlich ist jetzt alles in Ordnung.
Hier ist ein Beispiel, das ich gemacht habe und bei dem die ANOVA bei 5% signifikant ist, aber keiner der 6 paarweisen Vergleiche ist signifikant, selbst bei 5% .
Hier sind die Daten:
Hier ist die ANOVA:
Hier sind die beiden Stichproben-t-Test-p-Werte (Annahme gleicher Varianz):
Wenn man sich ein wenig mehr mit Gruppenmitteln oder einzelnen Punkten beschäftigt, könnte der Unterschied in der Signifikanz auffälliger werden (indem ich den ersten p-Wert kleiner und den niedrigsten der sechs p-Werte für den t-Test höher machen könnte) ).
-
Bearbeiten: Hier ist ein zusätzliches Beispiel, das ursprünglich mit Rauschen über einen Trend erstellt wurde. Es zeigt, wie viel besser Sie tun können, wenn Sie Punkte ein wenig verschieben:
Das F hat einen p-Wert unter 3% und keines der ts hat einen p-Wert unter 8%. (Für ein Beispiel mit 3 Gruppen - aber mit einem etwas größeren p-Wert auf dem F - lassen Sie die zweite Gruppe weg)
Und hier ist ein wirklich einfaches, wenn auch künstlicheres Beispiel mit 3 Gruppen:
(In diesem Fall liegt die größte Varianz in der mittleren Gruppe - aber aufgrund der größeren Stichprobengröße ist der Standardfehler des Gruppenmittelwerts immer noch kleiner.)
Mehrere Vergleiche t-Tests
whuber schlug vor, ich betrachte den Mehrfachvergleichsfall. Es erweist sich als sehr interessant.
Der Fall für Mehrfachvergleiche (alle auf dem ursprünglichen Signifikanzniveau durchgeführt - dh ohne Anpassung des Alphas für Mehrfachvergleiche) ist etwas schwieriger zu erreichen, da das Herumspielen mit größeren und kleineren Varianzen oder mehr und weniger df in den verschiedenen Gruppen nicht hilft auf die gleiche Weise wie bei gewöhnlichen t-Tests mit zwei Stichproben.
Wir haben jedoch immer noch die Werkzeuge, um die Anzahl der Gruppen und das Signifikanzniveau zu manipulieren. Wenn wir mehr Gruppen und kleinere Signifikanzniveaus wählen, wird es wieder relativ einfach, Fälle zu identifizieren. Hier ist eine:
Der kleinste p-Wert in den paarweisen Vergleichen ist jedoch nicht signifikant für dieses Niveau:
quelle
Zusammenfassung: Ich glaube, dass dies möglich, aber sehr, sehr unwahrscheinlich ist. Der Unterschied wird gering sein, und wenn er auftritt, liegt dies daran, dass eine Annahme verletzt wurde (z. B. Homoskedastizität der Varianz).
Hier ist ein Code, der nach einer solchen Möglichkeit sucht. Beachten Sie, dass der Startwert bei jeder Ausführung um 1 erhöht wird, sodass der Startwert gespeichert wird (und die Suche nach Startwerten systematisch erfolgt).
Auf der Suche nach einem signifikanten R2 und keinen nicht signifikanten t-Tests habe ich bis zu einem Startwert von 18.000 nichts gefunden. Auf der Suche nach einem niedrigeren p-Wert aus R2 als aus den t-Tests erhalte ich ein Ergebnis bei seed = 323, aber der Unterschied ist sehr, sehr gering. Es ist möglich, dass das Ändern der Parameter (Erhöhen der Anzahl der Gruppen?) Hilfreich ist. Der Grund dafür, dass der R2 p-Wert kleiner sein kann, besteht darin, dass bei der Berechnung des Standardfehlers für die Parameter in der Regression alle Gruppen kombiniert werden, sodass der Standardfehler der Differenz möglicherweise kleiner als im t-Test ist.
Ich fragte mich, ob eine Verletzung der Heteroskedastizität (sozusagen) hilfreich sein könnte. Es tut. Wenn ich benutze
Um das y zu erzeugen, finde ich ein geeignetes Ergebnis bei seed = 1889, wobei der minimale p-Wert aus den t-Tests 0,061 und der mit R-squared verbundene p-Wert 0,046 beträgt.
Wenn ich die Gruppengröße verändere (was den Effekt der Verletzung der Heteroskedastizität verstärkt), ersetze ich die x-Abtastung durch:
Ich erhalte ein signifikantes Ergebnis bei seed = 531, mit dem minimalen t-Test-p-Wert bei 0,063 und dem p-Wert für R2 bei 0,046.
Wenn ich aufhöre, die Heteroskedastizität im t-Test zu korrigieren, verwenden Sie:
Mein Fazit ist, dass dies sehr unwahrscheinlich ist und der Unterschied wahrscheinlich sehr gering ist, es sei denn, Sie haben die Homoskedastizitätsannahme bei der Regression verletzt. Versuchen Sie, Ihre Analyse mit einem robusten / Sandwich / was auch immer Sie es Korrektur nennen möchten.
quelle
Es ist durchaus möglich:
Der gesamte F-Test testet alle Kontraste gleichzeitig . Daher muss es für einzelne Kontraste weniger empfindlich sein (weniger statistische Aussagekraft) (z. B. ein paarweiser Test). Die beiden Tests sind eng miteinander verwandt, aber nicht genau dasselbe an.
Wie Sie sehen, ist die Lehrbuchempfehlung, keine geplanten Vergleiche durchzuführen, es sei denn, der gesamte F-Test ist signifikant, nicht immer richtig. Tatsächlich kann die Empfehlung dazu führen, dass wir keine signifikanten Unterschiede feststellen, da der gesamte F-Test weniger aussagekräftig ist als die geplanten Vergleiche zum Testen der spezifischen Unterschiede.
quelle