2N(N−1)/2N(N−1)/2N(N-1)/2 In dieser Antwort schrieb @whuber: Es ist allgemein bekannt, dass ein globaler ANOVA-F-Test eine..."/>

Kann eine ANOVA signifikant sein, wenn keiner der paarweisen t-Tests signifikant ist?

29

Kann eine Einweg- ANOVA (mit Gruppen oder "Niveaus") einen signifikanten Unterschied melden, wenn keiner der paarweisen N ( N - 1 ) / 2 t-Tests dies tut?N>2N(N1)/2

In dieser Antwort schrieb @whuber:

Es ist allgemein bekannt, dass ein globaler ANOVA-F-Test eine Mittelwertdifferenz erkennen kann, selbst wenn kein individueller [unangepasster paarweiser] t-Test eines der Mittelwertpaare ein signifikantes Ergebnis liefert.

so anscheinend ist es möglich, aber ich verstehe nicht wie. Wann passiert es und wie würde die Intuition dahinter aussehen? Vielleicht kann jemand ein einfaches Spielzeugbeispiel für eine solche Situation liefern?

Einige weitere Bemerkungen:

  1. Das Gegenteil ist eindeutig möglich: Die gesamte ANOVA kann nicht signifikant sein, während einige der paarweisen t-Tests fälschlicherweise signifikante Unterschiede melden (dh dies wären falsch positive Ergebnisse).

  2. Meine Frage ist über Standard, nicht für mehrere Vergleiche T-Tests angepasst. Wenn angepasste Tests verwendet werden (wie z. B. das HSD-Verfahren von Tukey), ist es möglich, dass sich keiner von ihnen als signifikant herausstellt, obwohl es sich um die gesamte ANOVA handelt. Dies wird hier in mehreren Fragen behandelt, z. B. Wie kann ich eine signifikante Gesamt-ANOVA erhalten, aber keine signifikanten paarweisen Unterschiede zum Vorgehen von Tukey? und Signifikante ANOVA-Wechselwirkung, aber nicht signifikante paarweise Vergleiche .

  3. Aktualisieren. Meine Frage bezog sich ursprünglich auf die üblichen paarweisen t-Tests mit zwei Stichproben . Wie @whuber jedoch in den Kommentaren ausführte, werden t-Tests im ANOVA-Kontext normalerweise als post-hoc- Kontraste auf der Grundlage der ANOVA-Schätzung der gruppeninternen Varianz verstanden, die über alle Gruppen hinweg zusammengefasst wird (was bei zwei nicht der Fall ist) -Beispiel T-Test). Es gibt also zwei verschiedene Versionen meiner Frage, und die Antwort auf beide ist positiv. Siehe unten.

Amöbe sagt Reinstate Monica
quelle
3
Ihre Frage wird in vielen Threads behandelt: Versuchen Sie, unsere Website auf signifikante Regression zu durchsuchen . (ANOVA ist eine Anwendung der Regression der kleinsten Quadrate.) Beispielsweise bietet stats.stackexchange.com/questions/14500/… ein explizites Beispiel und eine gewisse Intuition. Bitte recherchieren Sie diese und bearbeiten Sie Ihre Frage, wenn möglich, um sie von früheren Themen zu unterscheiden.
Whuber
Danke, das habe ich noch nie gesehen. Es fällt mir jedoch sehr schwer, diese Erklärungen zur multiplen Regression in die Sprache der ANOVA-Vergleiche zu übersetzen. Dies ist natürlich mein eigenes Problem, aber ich würde vermuten, dass ich nicht allein bin. Vielleicht wäre eine Antwort auf meine Frage dennoch nützlich für die Community. Hier ist meine Verwirrung: Jemand gab ein Beispiel für eine Gewichtsreduktion der linken / rechten Schuhgröße (zwei stark korrelierte IVs) => F signif, t not. Sehr gut. In der ANOVA-Regression mit 3 Gruppen gibt es jetzt 2 Dummy- IVs. sie sind dumm => immer perfekt korreliert ... und na und?
Amöbe sagt Reinstate Monica
Ich fürchte, ich folge dieser letzten Bemerkung nicht. Erstens hängt das Problem nicht unbedingt mit einer starken Korrelation in der Entwurfsmatrix zusammen. Zweitens sind Dummies nicht "perfekt antikorreliert": Wenn sie es wären, müsste die Software sowieso einen von ihnen fallen lassen. Vielleicht beziehen Sie sich auf subtilere Probleme in komplexeren ANOVA-Modellen .
whuber
@amoeba: Ihre Dummy-Variablen sind negativ korreliert.
Michael M
3
Ich nehme Ausnahme von Ihrer "weiteren Bemerkung" Nr. 1. Nur weil Sie hoch signifikante paarweise Vergleiche haben und ein nicht signifikantes F nicht bedeutet, dass diese signifikanten Ergebnisse falsch positiv sind. Um sicher zu wissen, dass etwas falsch positiv ist, muss man wissen, dass es keinen Unterschied in den tatsächlichen Mitteln gibt, den mus. Die F-Statistik ist nicht heilig. In der Tat ist es nicht einmal obligatorisch. Es ist am nützlichsten für die Modellauswahl, aber darüber hinaus wenig aussagekräftig für die spezifischen Vorgänge in Ihren Daten.
Rvl

Antworten:

18

Hinweis: Mit meinem ursprünglichen Beispiel stimmte etwas nicht. Ich wurde dummerweise von Rs stillem Argument des Recyclings erwischt. Mein neues Beispiel ist meinem alten sehr ähnlich. Hoffentlich ist jetzt alles in Ordnung.

Hier ist ein Beispiel, das ich gemacht habe und bei dem die ANOVA bei 5% signifikant ist, aber keiner der 6 paarweisen Vergleiche ist signifikant, selbst bei 5% .

Hier sind die Daten:

g1:  10.71871  10.42931   9.46897   9.87644
g2:  10.64672   9.71863  10.04724  10.32505  10.22259  10.18082  10.76919  10.65447 
g3:  10.90556  10.94722  10.78947  10.96914  10.37724  10.81035  10.79333   9.94447 
g4:  10.81105  10.58746  10.96241  10.59571

Bildbeschreibung hier eingeben

Hier ist die ANOVA:

             Df Sum Sq Mean Sq F value Pr(>F)  
as.factor(g)  3  1.341  0.4469   3.191 0.0458 *
Residuals    20  2.800  0.1400        

Hier sind die beiden Stichproben-t-Test-p-Werte (Annahme gleicher Varianz):

        g2     g3     g4
 g1   0.4680 0.0543 0.0809 
 g2          0.0550 0.0543 
 g3                 0.8108

Wenn man sich ein wenig mehr mit Gruppenmitteln oder einzelnen Punkten beschäftigt, könnte der Unterschied in der Signifikanz auffälliger werden (indem ich den ersten p-Wert kleiner und den niedrigsten der sechs p-Werte für den t-Test höher machen könnte) ).

-

Bearbeiten: Hier ist ein zusätzliches Beispiel, das ursprünglich mit Rauschen über einen Trend erstellt wurde. Es zeigt, wie viel besser Sie tun können, wenn Sie Punkte ein wenig verschieben:

g1:  7.27374 10.31746 10.54047  9.76779
g2: 10.33672 11.33857 10.53057 11.13335 10.42108  9.97780 10.45676 10.16201
g3: 10.13160 10.79660  9.64026 10.74844 10.51241 11.08612 10.58339 10.86740
g4: 10.88055 13.47504 11.87896 10.11403

Das F hat einen p-Wert unter 3% und keines der ts hat einen p-Wert unter 8%. (Für ein Beispiel mit 3 Gruppen - aber mit einem etwas größeren p-Wert auf dem F - lassen Sie die zweite Gruppe weg)

Und hier ist ein wirklich einfaches, wenn auch künstlicheres Beispiel mit 3 Gruppen:

g1: 1.0  2.1
g2: 2.15 2.3 3.0 3.7 3.85
g3: 3.9  5.0

(In diesem Fall liegt die größte Varianz in der mittleren Gruppe - aber aufgrund der größeren Stichprobengröße ist der Standardfehler des Gruppenmittelwerts immer noch kleiner.)


Mehrere Vergleiche t-Tests

whuber schlug vor, ich betrachte den Mehrfachvergleichsfall. Es erweist sich als sehr interessant.

Der Fall für Mehrfachvergleiche (alle auf dem ursprünglichen Signifikanzniveau durchgeführt - dh ohne Anpassung des Alphas für Mehrfachvergleiche) ist etwas schwieriger zu erreichen, da das Herumspielen mit größeren und kleineren Varianzen oder mehr und weniger df in den verschiedenen Gruppen nicht hilft auf die gleiche Weise wie bei gewöhnlichen t-Tests mit zwei Stichproben.

Wir haben jedoch immer noch die Werkzeuge, um die Anzahl der Gruppen und das Signifikanzniveau zu manipulieren. Wenn wir mehr Gruppen und kleinere Signifikanzniveaus wählen, wird es wieder relativ einfach, Fälle zu identifizieren. Hier ist eine:

nich=2α=0,0025

> summary(aov(values~ind,gs2))
            Df Sum Sq Mean Sq F value  Pr(>F)   
ind          7      9   1.286   10.29 0.00191 
Residuals    8      1   0.125                   

Der kleinste p-Wert in den paarweisen Vergleichen ist jedoch nicht signifikant für dieses Niveau:

> with(gs2,pairwise.t.test(values,ind,p.adjust.method="none"))

        Pairwise comparisons using t tests with pooled SD 

data:  values and ind 

   g1     g2     g3     g4     g5     g6     g7    
g2 1.0000 -      -      -      -      -      -     
g3 1.0000 1.0000 -      -      -      -      -     
g4 1.0000 1.0000 1.0000 -      -      -      -     
g5 0.0028 0.0028 0.0028 0.0028 -      -      -     
g6 0.0028 0.0028 0.0028 0.0028 1.0000 -      -     
g7 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 -     
g8 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 1.0000

P value adjustment method: none 
Glen_b - Setzen Sie Monica wieder ein
quelle
2
Der T-Test mit zwei Stichproben ist nicht dasselbe wie paarweise Tests in der Regression. Die Unterscheidung liegt in den Schätzungen der Restvarianz. Somit sind Ihre Beispiele nicht wirklich Beispiele für das stärkere Paradoxon, dh, innerhalb ein und derselben Regressionsanalyse kann der F-Test signifikant sein, während keiner seiner paarweisen Vergleiche signifikant ist. Ich glaube, dass dieses Paradox nicht unbedingt auf Heteroskedastizität zurückzuführen ist: Es kann auch dann auftreten, wenn alle Gruppenvarianzen gleich sind.
Whuber
4
Interessanter noch Adresse sein könnte , wenn es möglich für den F-Test , um die null , aber keiner der paarweise t-Tests ablehnt es zum gleichen Signifikanzniveau abzulehnen (die gleiche Fehlervarianzschätzung wie der F-Test). ZB enthält für 3 Gruppen mit gleichen Stichprobengrößen die Vereinigung des 5% -Rückweisungsbereichs für die paarweisen t-Tests den 5% -Rückweisungsbereich für den ANOVAR F-Test, selbst wenn die Stichprobengröße sehr groß wird.
Scortchi
4
0,005F
4
Amöben, die Verwirrung ergibt sich aus der Tatsache, dass "paarweise t-Tests" zwei Dinge bedeuten können. Im ANOVA-Kontext werden normalerweise post-hoc- Kontraste unter Verwendung der ANOVA-Schätzungen verstanden. Wie bereits erwähnt, ist dies nicht dasselbe wie der übliche t-Test für Gruppenpaare, da die ANOVA-Version auf einer Schätzung der gruppeninternen Varianz basiert, die aus allen Gruppen abgeleitet wurde.
whuber
2
Ich denke, Sie haben eine gute Zusammenfassung gemacht. Ich habe das Paradox als "stärker" bezeichnet, in dem Sinne, dass man (naiv) erwarten würde, dass alle Tests, die im Rahmen einer einzigen ANOVA-Analyse durchgeführt werden, intern konsistent sind. (Wenn Sie zwei Sätze von Tests durchführen, die nicht inhärent miteinander verwandt sind, sollte es keine große Überraschung sein, wenn sie widersprüchliche Ergebnisse liefern. Dies kommt häufig vor.) Wir müssen akzeptieren, dass es logisch konsistent und statistisch gültig ist, diese Gruppe zu schließen Mittelwerte variieren erheblich, ohne Unterschiede zwischen bestimmten Gruppenpaaren zu finden.
Whuber
4

Zusammenfassung: Ich glaube, dass dies möglich, aber sehr, sehr unwahrscheinlich ist. Der Unterschied wird gering sein, und wenn er auftritt, liegt dies daran, dass eine Annahme verletzt wurde (z. B. Homoskedastizität der Varianz).

Hier ist ein Code, der nach einer solchen Möglichkeit sucht. Beachten Sie, dass der Startwert bei jeder Ausführung um 1 erhöht wird, sodass der Startwert gespeichert wird (und die Suche nach Startwerten systematisch erfolgt).

stopNow <- FALSE
counter <- 0
while(stopNow == FALSE) {
  counter <- counter + 1
  print(counter)
  set.seed(counter)
  x <- rep(c(0:5), 100)
  y <- rnorm(600) + x * 0.01
  df  <-as.data.frame( cbind(x, y))
  df$x <- as.factor(df$x)
  fit <- (lm(y ~ x, data=df))
  anovaP <- anova(fit)$"Pr(>F)"[[1]]
       minTtestP <- 1
      for(loop1 in c(0:5)){
        for(loop2 in c(0:5)) {
          newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y)$p.value
      minTtestP <- min(minTtestP, newTtestP )    
      }
   }

  if(minTtestP > 0.05 & anovaP < 0.05) stopNow <- TRUE 
  cat("\nminTtestP = ", minTtestP )
  cat("\nanovaP = ", anovaP )
  cat("\nCounter = ", counter, "\n\n" )
}

Auf der Suche nach einem signifikanten R2 und keinen nicht signifikanten t-Tests habe ich bis zu einem Startwert von 18.000 nichts gefunden. Auf der Suche nach einem niedrigeren p-Wert aus R2 als aus den t-Tests erhalte ich ein Ergebnis bei seed = 323, aber der Unterschied ist sehr, sehr gering. Es ist möglich, dass das Ändern der Parameter (Erhöhen der Anzahl der Gruppen?) Hilfreich ist. Der Grund dafür, dass der R2 p-Wert kleiner sein kann, besteht darin, dass bei der Berechnung des Standardfehlers für die Parameter in der Regression alle Gruppen kombiniert werden, sodass der Standardfehler der Differenz möglicherweise kleiner als im t-Test ist.

Ich fragte mich, ob eine Verletzung der Heteroskedastizität (sozusagen) hilfreich sein könnte. Es tut. Wenn ich benutze

y <- (rnorm(600) + x * 0.01) * x * 5

Um das y zu erzeugen, finde ich ein geeignetes Ergebnis bei seed = 1889, wobei der minimale p-Wert aus den t-Tests 0,061 und der mit R-squared verbundene p-Wert 0,046 beträgt.

Wenn ich die Gruppengröße verändere (was den Effekt der Verletzung der Heteroskedastizität verstärkt), ersetze ich die x-Abtastung durch:

x <- sample(c(0:5), 100, replace=TRUE)

Ich erhalte ein signifikantes Ergebnis bei seed = 531, mit dem minimalen t-Test-p-Wert bei 0,063 und dem p-Wert für R2 bei 0,046.

Wenn ich aufhöre, die Heteroskedastizität im t-Test zu korrigieren, verwenden Sie:

newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y, var.equal = TRUE)$p.value

Mein Fazit ist, dass dies sehr unwahrscheinlich ist und der Unterschied wahrscheinlich sehr gering ist, es sei denn, Sie haben die Homoskedastizitätsannahme bei der Regression verletzt. Versuchen Sie, Ihre Analyse mit einem robusten / Sandwich / was auch immer Sie es Korrektur nennen möchten.

Jeremy Miles
quelle
Du scheinst einen unvollendeten Satz zu haben, der mit "Wenn ich aufhöre, Heteroskedastizität im t-Test zu korrigieren" beginnt. Ansonsten vielen Dank! Bitte beachten Sie mein Update auf die Frage. Beachten Sie auch den ersten Kommentar von @ whuber hier oben; wenn ich es richtig verstehe, besteht er darauf, dass eine solche Situation leicht (?) passieren kann (und nennt es "gut bekannt"). Vielleicht gibt es hier ein Missverständnis, aber was ist das?
Amöbe sagt Reinstate Monica
Ich denke, @whuber spricht von nicht signifikanten Parametern im Modell, nicht von nicht signifikanten t-Tests.
Jeremy Miles
Nein, ist er nicht. Wenn es bekannt ist, weiß ich es nicht und habe versucht, ein Beispiel zu finden, und kann es nicht.
Jeremy Miles
1
Ich bin also froh, dass @Glen_b ein einfaches Beispiel hervorgebracht hat. Die Intuition ist, dass der Gesamttest beurteilt, ob es Anzeichen dafür gibt, dass die Streuung im Gruppenmittel nicht vernünftigerweise allein durch Restvarianz erklärt werden kann. Die paarweisen Tests, bei denen jeweils nur zwei Mittel zum Einsatz kommen, müssen bei der Bewertung derselben Beweise erheblich konservativer sein. Daher kann es vorkommen, dass selbst beim Vergleich der beiden Extremgruppenmittelwerte kein signifikanter Unterschied festgestellt wird, wenn die Gesamtverteilung aller Mittelwerte signifikant ist. Dies tritt in der Praxis manchmal auf, insbesondere bei einer großen Anzahl von Gruppen.
Whuber
3
Übrigens stammt der Grund für die Bezeichnung "gut bekannt" aus meiner Erinnerung, dass ich im Systat-Softwarehandbuch darauf hingewiesen wurde. C. 1989. Es war ein sehr lehrreiches Handbuch (das meiste wurde persönlich von Leland Wilkinson , dem Entwickler, geschrieben) und ist es wahrscheinlich immer noch. Das Handbuch ist online, aber Sie müssen sich auf der Systat-Website registrieren, um es herunterladen zu können.
Whuber
2

Es ist durchaus möglich:

  • Ein oder mehrere paarweise t-Tests sind signifikant, der gesamte F-Test jedoch nicht
  • Der gesamte F-Test ist signifikant, aber keiner der paarweisen t-Tests ist signifikant

Der gesamte F-Test testet alle Kontraste gleichzeitig . Daher muss es für einzelne Kontraste weniger empfindlich sein (weniger statistische Aussagekraft) (z. B. ein paarweiser Test). Die beiden Tests sind eng miteinander verwandt, aber nicht genau dasselbe an.

Wie Sie sehen, ist die Lehrbuchempfehlung, keine geplanten Vergleiche durchzuführen, es sei denn, der gesamte F-Test ist signifikant, nicht immer richtig. Tatsächlich kann die Empfehlung dazu führen, dass wir keine signifikanten Unterschiede feststellen, da der gesamte F-Test weniger aussagekräftig ist als die geplanten Vergleiche zum Testen der spezifischen Unterschiede.

Kleinschach
quelle
Ich bin nicht sicher, ob ich der Logik Ihrer Antwort folge. Wollen Sie damit sagen, dass die Zurückweisung von H0 durch einen F-Test impliziert, dass es mindestens einen Kontrast ungleich Null gibt, dieser Kontrast jedoch möglicherweise keinem der paarweisen Vergleiche entspricht? Wenn ja, bedeutet dies, dass wenn ein F-Test H0 ablehnt, mindestens einer der paarweisen Tests über alle möglichen Kontraste auch zu einer Ablehnung führt?
Amöbe sagt Reinstate Monica
@amoeba Ich habe meine Antwort bearbeitet.
SmallChess