Wie verwende ich Anova für den Vergleich zweier Modelle?

9

Wie soll ich das anovaErgebnis beim Vergleich zweier Modelle verstehen ?

Beispiel:

  Res.Df    RSS Df Sum of Sq      F    Pr(>F)    
1      9 54.032                                  
2      7  4.632  2      49.4 37.329 0.0001844 ***

In der Manpage heißt es: "Berechnen Sie die Analyse von Varianz- (oder Abweichungs-) Tabellen für ein oder mehrere angepasste Modellobjekte." Unser Professor erwähnte jedoch, dass es für den Modellvergleich verwendet werden könnte - das habe ich vor.

Daher gehe ich davon aus, dass ich anova(model1, model2)einen p-Wert verwenden und erhalten könnte, der mir sagt, ob ich die Nullhypothese ablehnen soll: "Die Modelle sind die gleichen".

Darf ich sagen, dass sich die Modelle erheblich unterscheiden, wenn der p-Wert kleiner als (sagen wir) 0,05 ist?

Petrbel
quelle
Sind in Ihrem Beispiel Modell1 und Modell2 verschachtelt? Das heißt, haben beide Modelle einen gemeinsamen Satz von Prädiktorvariablen und dieselbe Ergebnisvariable, aber ein Modell hat eine oder mehrere zusätzliche Prädiktorvariablen?
EdM
Einer ist wie Y ~ X + X^2und der zweiteY ~ X + X^2 + X^3
Petrbel

Antworten:

13

Angenommen, Ihre Modelle sind verschachtelt (dh dieselbe Ergebnisvariable und Modell 2 enthält alle Variablen von Modell 1 plus 2 zusätzliche Variablen), dann geben die ANOVA-Ergebnisse an, dass die 2 zusätzlichen Variablen gemeinsam genügend Varianz berücksichtigen, sodass Sie die Nullhypothese ablehnen können, dass die Koeffizienten für beide Variablen sind gleich 0. Dies ist effektiv das, was Sie gesagt haben. Wenn beide Koeffizienten gleich 0 sind, sind die Modelle gleich.

Nur als zusätzliche Anmerkung, falls Sie es nicht wussten, ist ANOVA immer gleichbedeutend mit Modellvergleichen. Wenn Sie die ANOVA für ein einzelnes Modell betrachten, erhalten Sie die Auswirkungen für jede Prädiktorvariable. Dies entspricht einem Modellvergleich zwischen Ihrem vollständigen Modell und einem Modell, bei dem eine der Variablen entfernt wird. dh gibt Ihnen die Summe der Quadrate (Typ III) und die Teststatistik für . Beachten Sie nur, dass R Ihnen die Quadratsumme vom Typ I gibt. Wenn Sie Typ III benötigen, verwenden oder verwenden Sie die Reihenfolge der Variablen im Modell und ändern Sie sie ständig. Nehmen Sie nur die Summe der Quadrate für die letzte Variable.Model1:y=a+bx1+cx2+dx3;Model2:y=a+bx1+cx2x3car::Anovaanova

le_andrew
quelle
Wenn ich Sie richtig verstanden habe, beweist der p-Wert von weniger als 0,05, dass sich die Modelle unterscheiden, eng?
Petrbel
3
Ich würde diese Wörter nicht verwenden (dh "beweisen" und "Modelle unterscheiden sich"), aber wir meinen das Gleiche. Ich würde sagen, dass Ihre Daten nicht die Nullhypothese unterstützen, dass die Koeffizienten beide 0 sind, oder dass die Daten die alternative Hypothese unterstützen, dass die Koeffizienten nicht beide 0 sind.
le_andrew
1
Bevor behauptet wird, dass Modelle unterschiedlich sind oder die Nullhypothese nicht unterstützt wird, stellen Sie sicher, dass die Daten den Annahmen von ANOVA , die der Berechnung und Interpretation der p-Werte zugrunde liegen, angemessen entsprechen .
EdM
Nur um sicher zu gehen, gilt der letzte Teil über die Quadratsumme Typ I nur für die Situation, in anova()der ein Modell verwendet wird?
Jasper