Vergleich zweier Modelle mit der Funktion anova () in R

32

Aus der Dokumentation für anova():

Wenn 'anova' eine Sequenz von Objekten erhält, werden die Modelle in der angegebenen Reihenfolge gegeneinander getestet ...

Was bedeutet es, die Modelle gegeneinander zu testen? Und warum ist die Bestellung wichtig?

Hier ist ein Beispiel aus dem GenABEL-Tutorial :

    >  modelAdd = lm(qt~as.numeric(snp1))
    >  modelDom = lm(qt~I(as.numeric(snp1)>=2))
    >  modelRec = lm(qt~I(as.numeric(snp1)>=3))
     anova(modelAdd, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ as.numeric(snp1)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)
    1   2372 2320                      
    2   2371 2320  1    0.0489     0.82
     anova(modelDom, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ I(as.numeric(snp1) >= 2)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)
    1   2372 2322                      
    2   2371 2320  1      1.77     0.18
     anova(modelRec, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ I(as.numeric(snp1) >= 3)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)  
    1   2372 2324                        
    2   2371 2320  1      3.53    0.057 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Wie interpretiere ich diese Ausgabe?

qed
quelle

Antworten:

31

Bei Verwendung anova(lm.1,lm.2,test="Chisq")wird der Chi-Quadrat-Test zum Vergleichen lm.1und lm.2(dh zum Testen, ob die Reduzierung der Restsumme der Quadrate statistisch signifikant ist oder nicht) ausgeführt. Beachten Sie, dass dies macht nur Sinn , wenn lm.1und lm.2sind verschachtelte Modelle.

In der von Ihnen verwendeten ersten Anova beträgt der p-Wert des Tests beispielsweise 0,82. Dies bedeutet, dass sich das angepasste Modell "modelAdd" nicht wesentlich von modelGen auf der Ebene von . Unter Verwendung des p-Werts in der 3. Anova unterscheidet sich das Modell "modelRec" jedoch erheblich vom Modell "modelGen" bei .α=0,05α=0,1

Schauen Sie sich auch die ANOVA für lineare Modellanpassungen an .

Stat
quelle
1
Aber impliziert das etwas darüber, ob einer der beiden besser ist? Vielen Dank!
Qed
5
Es kommt darauf an, wie Sie den Begriff "besser" definieren. Wenn Sie es als das Modell definieren, das weniger verbleibende Quadratsummen liefert, lautet die Antwort Ja. Dies liegt daran, dass dieser Test die Reduzierung der verbleibenden Quadratsumme vergleicht.
Stat
3
Könnte man dagegen argumentieren, dass das einfachere Modell "besser" ist, wenn sich die beiden Modelle nicht wesentlich unterscheiden? Ich denke hier über Parcimony nach.
Sininho,
1
Was ist, wenn die Anova (mod1, mod2, test = "LRT"), was ist der Unterschied, den dies macht?
ElleryL