Intro: Nachdem ich die Aufmerksamkeit zur Kenntnis genommen habe, die heute von dieser Frage erhalten wurde: " Kann ANOVA signifikant sein, wenn keiner der paarweisen t-Tests signifikant ist? " .
Eine Vielzahl von inkongruenten Ergebnissen (zum Nennwert) kann auftreten, wenn die statistische Signifikanz als einfache Dichotomie aufgefasst und auf der bloßen Basis beurteilt wird, die höher ist, das oder das . Die Antwort von @ Glen_b auf die obige Frage zeigt ein nützliches Beispiel für einen Fall, in dem:
- Ein ANOVA- Test erzeugt ein für eine unabhängige Variable (IV) mit vier Ebenen, aber
- für alle Tests mit zwei Stichproben , die Unterschiede in derselben abhängigen Variablen (DV) zwischen Beobachtungen vergleichen, die jedem Paar der vier Stufen der IV entsprechen.
Ein ähnlicher Fall ergab sich trotz Bonferroni-Korrekturen für post-hoc paarweise Vergleiche über diese Frage: Anova-Wiederholungsmessungen sind signifikant, aber alle Mehrfachvergleiche mit der Bonferroni-Korrektur sind nicht signifikant? Es gibt auch bereits erwähnte Fälle mit einem etwas anderen Test in multipler Regression:
- Warum ist es möglich, signifikante F-Statistiken (p <0,001) zu erhalten, aber nicht signifikante Regressor-t-Tests? :
- Wie kann eine Regression signifikant sein, obwohl alle Prädiktoren nicht signifikant sind?
- In @ whubers Antwort ist
Ich wette, dass in solchen Fällen einige (aber nicht alle) Werte von paarweisen Vergleichen (oder Signifikanztests für Regressionskoeffizienten) ziemlich nahe an \ alpha liegen müssen, wenn ein entsprechender Omnibus-Test ein p <\ alpha erreichen kann . Ich sehe, dass dies in @ Glen_bs erstem Beispiel der Fall ist, wo , und die größte paarweise Differenz das kleinste . Muss das überhaupt so sein? Genauer gesagt :
Frage: Wenn ein ANOVA F- Test einen für den Effekt einer polytomen IV auf eine kontinuierliche DV ergibt , wie hoch könnte der niedrigste Wert unter allen zwei Stichproben- Tests sein, die jedes Paar der IV-Ebenen vergleichen? Könnte die minimale paarweise Signifikanz so hoch sein wie ?
Ich begrüße Antworten, die sich nur mit dieser speziellen Frage befassen . Um diese Frage jedoch weiter zu motivieren, werde ich einige potenziell rhetorische Fragen ausarbeiten und einwerfen. Gerne können Sie auch auf diese Bedenken eingehen und die spezifische Frage ignorieren, wenn Sie möchten, insbesondere wenn die spezifische Frage eine endgültige Antwort erhält.
Signifikanz: Überlegen Sie, um wie viel weniger wichtig der Unterschied zwischen einem und einem wäre, wenn die statistische Signifikanz kontinuierlich anhand der Beweiskraft gegen die Nullhypothese beurteilt würde (Ron Fischers Ansatz, denke ich?). anstatt dichotomisch über oder unter einer Schwelle von für eine akzeptable Fehlerwahrscheinlichkeit bei der Auswahl, ob der Nullgroßhandel abgelehnt werden soll. " hacking " ist ein bekanntes Problem, das teilweise seine Bekanntheit einer unnötigen Verwundbarkeit verdankt, die durch die Interpretation vonp t = .06 α = .05 p p p p .10 p αWerte gemäß der gängigen Praxis der Zweiteilung der Signifikanz in die Äquivalente "gut genug" und "nicht gut genug". Wenn man diese Praxis ablehnen und sich stattdessen darauf konzentrieren würde, Werte als Beweiskraft gegen die Null in einem kontinuierlichen Intervall zu interpretieren , wäre Omnibus-Test möglicherweise weniger wichtig, wenn man sich wirklich um mehrere paarweise Vergleiche kümmert? Nicht unbedingt nutzlos, da natürlich eine einigermaßen effiziente Verbesserung der statistischen Genauigkeit wünschenswert ist, aber ... wenn zum Beispiel der Wert des niedrigsten paarweisen Vergleichs notwendigerweise innerhalb von des ANOVA (oder eines anderen Omnibus-Tests)Wert, macht dies den Omnibus-Test nicht etwas trivialer, weniger obligatorisch und noch irreführender (in Verbindung mit bereits bestehenden Missverständnissen), insbesondere wenn man über mehrere Tests hinweg kontrollieren möchte ?
Wenn umgekehrt Daten vorhanden sein können, bei denen ein Omnibus , aber alle paarweise , sollte dies nicht zu einer weiteren Motivation für Omnibus- und Kontrasttests in der gesamten Praxis und Pädagogik führen? Meines Erachtens sollte dieses Thema auch die relativen Vorzüge der Beurteilung der statistischen Signifikanz nach einer Dichotomie im Vergleich zu einem Kontinuum aufzeigen, da das dichotome Interpretationssystem empfindlicher für kleine Anpassungen sein sollte, wenn Unterschiede "geringfügig signifikant" sind, während keines der beiden Systeme ist sicher vor dem Versagen, einen Sammelbustest durchzuführen oder für mehrere Vergleiche anzupassen, wenn diese Differenz / Anpassung sehr groß sein kann (z. B. .p > .50 p t - p F > .40 )
Andere wahlweise zu berücksichtigende oder zu ignorierende Komplexitäten - was die Beantwortung einfacher und lohnender macht :
- Wie hoch s für s könnte sein , wenn für , statt (zB )t F p < .05 p = .01 , .001 , ...
- Empfindlichkeit gegenüber der Anzahl der Ebenen in einem polytomen IV
- Empfindlichkeit für Ungleichmäßigkeiten in der Signifikanz paarweiser Differenzen (während alle )
- Die Antwort von whuber zeigt, dass das Einbeziehen kleiner Unterschiede große Unterschiede überdecken kann.
- Unterschiede zwischen den Korrekturen verschiedener Omnibus-Tests für mehrere Vergleiche
- Eingeschränkte Fälle, in denen Daten alle Annahmen klassischer parametrischer Tests optimal erfüllen
- Diese Einschränkung kann wichtig sein, um zu verhindern, dass diese Frage etwas umstritten ist.
Antworten:
Unter der Annahme , dass für jede Behandlung in einem Einweg-Layout s gleich sind (siehe Anmerkung 2 unten) und dass die gepoolte SD aller Gruppen in den Tests verwendet wird (wie dies bei üblichen Post-hoc-Vergleichen der Fall ist), ist das Maximum möglich - Wert für einen - Test (hier bezeichnet den CDF). Somit kann kein so hoch wie . Interessanterweise (und ziemlich bizarr) gilt die Grenze nicht nur für , sondern für jedes Signifikanzniveau, das wir für benötigen .t p t 2 Φ ( - √n t p t ΦN(0,1)pt0,50,1573pF=.05F2Φ(−2–√)≈.1573 Φ N(0,1) pt 0.5 .1573 pF=.05 F
Die Begründung lautet wie folgt: Für einen gegebenen Bereich von Stichprobenmitteln ist , die größtmögliche Statistik wird erreicht, wenn die Hälfte von am einen Ende und die andere Hälfte am anderen Ende liegt. Dies stellt den Fall dar, in dem am signifikantesten erscheint, vorausgesetzt, zwei Mittelwerte unterscheiden sich um höchstens .F ˉ y iF2amaxi,j|y¯i−y¯j|=2a F y¯i F 2a
Nehmen wir also ohne Einschränkung der Allgemeinheit an, dass so dass in diesem Grenzfall ist. Angenommen, ist ohne der Allgemeinheit, da wir die Daten immer auf diesen Wert können. Betrachten wir nun Mittel (wobei Einfachheit halber gerade ist (siehe Anmerkung 1 unten)), so ergibt sich . Wenn Sie so , dass , erhalten Sie . Wenn das gesamte sind (und noch ), die jeweils ungleich Null ˉ y i=±ay¯.=0 y¯i=±a k k F = Σ n ˉ y 2 / ( k - 1 )MSE=1 k k F=∑ny¯2/(k−1)MSE=kna2k−1 F = F α = F α , k - 1 , k ( n - 1 ) a = √pF=α F=Fα=Fα,k−1,k(n−1) a=(k−1)Fαkn−−−−−−√ ±einMSE=1tt=2ay¯i ±a MSE=1 t Statistik ist somit . Dies ist der kleinstmögliche maximale Wert, wenn . tF=Fαt=2a12/n√=2(k−1)Fαk−−−−−−√ t F=Fα
Sie können also einfach verschiedene Fälle von und versuchen , und das zugehörige . Jedoch bemerkt , dass für die gegebenen , ist in abnehm [aber siehe Anmerkung 3 unten]; Außerdem ist , wie , ; Also . Man beachte, dass das Mittel und SD . Also , unabhängig davonn t p t k F α n n → ∞ ( k - 1 ) F α , k - 1 , k ( n - 1 ) → χ 2 α , k - 1 t ≥ t m i n = √k n t pt k Fα n n→∞ (k−1)Fα,k−1,k(n−1)→χ2α,k−1 χ2/k= k - 1t≥tmin=2χ2α,k−1/k−−−−−−−−√ k-1χ2/k=k−1kχ2/(k−1) k-1k−1k limk→∞tmin=√k−1k⋅2k−1−−−√ αlimk→∞tmin=2–√ α , und das Ergebnis, das ich oben im ersten Absatz angegeben habe, ergibt sich aus der asymptotischen Normalität.
Es dauert jedoch lange, bis diese Grenze erreicht ist. Hier sind die Ergebnisse (berechnet mitk α=.05
R
) für verschiedene Werte von unter Verwendung von :α = .05Ein paar lose Enden ...
quelle