Wie interpretiere ich eine ANOVA-Tabelle, in der vollständige und reduzierte OLS-Modelle verglichen werden?

10

Anova Ausgabe

Ich habe das online gefunden und es ist ein gutes Beispiel für das Problem, das ich habe. In einem solchen Fall bin ich mir nicht sicher, worauf sich die erste Zeile bezieht. Es heißt, es gibt 15 DF und der RSS ist 8,18. Wird diese Linie als Modellvariante "Zwischen" interpretiert? und was ist mit der zweiten Zeile? Wie wirkt sich die Variation zwischen den Situationen in der Situation aus, in der wir Modelle miteinander vergleichen?

Ich finde es etwas schwieriger, ANOVA im Zusammenhang mit dem Vergleich angepasster Modelle zu verstehen, daher versuche ich, es in einem Kontext zwischen und innerhalb zu verstehen.

B. Miller
quelle

Antworten:

18

Ich werde Ihre Frage mit einem Beispiel beantworten, dem Sie (ich hoffe) in [R] folgen können. Wenn Sie [R] nicht verwenden, können Sie die Ergebnisse in diesem Beitrag verfolgen.

Ich werde den Datensatz verwenden mtcars. Sie können Dokumentation finden , worum es geht hier . Denken Sie jedoch daran, dass es 32 Modelle gibt und für jedes Modell die Meilen pro Gallone, die Pferdestärke und andere Variablen aufgezeichnet werden. Dies ist der Anfang davon:

                   mpg  cyl  disp   hp    drat    wt     qsec   vs  am gear carb
Mazda RX4         21.0   6   160    110   3.90    2.620  16.46  0   1    4    4
Mazda RX4 Wag     21.0   6   160    110   3.90    2.875  17.02  0   1    4    4
Datsun 710        22.8   4   108    93    3.85    2.320  18.61  1   1    4    1

MODELLE:

Wir werden zwei fast zufällige OLS-Regressionen wie folgt durchführen:

fit1 <- lm(mpg ~ wt, mtcars)          #mpg regressed on weight of the car
fit2 <- lm(mpg ~ wt + qsec, mtcars)   #mpg regressed on weight and qsec

Beachten Sie, dass dies fit1ein eingeschränktes Modell ist, da wir den Regressionskoeffizienten für qsecin fit2auf Null setzen. fit2umgekehrt ist nicht eingeschränkt .

ANOVA:

anova(fit1, fit2)

Analysis of Variance Table

Model 1: mpg ~ wt
Model 2: mpg ~ wt + qsec

     Res.Df    RSS      Df    Sum of Sq      F            Pr(>F)   
1     30      278.32                              
2     29      195.46    1     82.858       12.293         0.0015 **

Ich werde nicht lange erklären, was diese Werte bedeuten, aber zu sehen, woher sie kommen, wird Ihnen wahrscheinlich helfen.


FREIHEITSGRADE:

1. Fehler oder verbleibende Freiheitsgrade: Wir sehen sie in der Ausgabe des anovaAufrufs als Res. Df 30und Res. Df 29. Sie werden berechnet als:

Nein. Beobachtungen- -Nein. unabhängige Variablen- -1=32- -1- -1=30für fit1und32- -2- -1=29für fit2. Denken Sie daran, dass wir 32 Automodelle haben.

2. Modell Freiheitsgrade: Es ist gleichNein. keine Variablen.

3. Gesamtfreiheitsgrade: Nein. Beobachtungen- -1.

4. Einschränkungen: Das nicht eingeschränkte Modell ( fit2) hat zwei unabhängige Variablen und ist daher ein Modell mit2Freiheitsgrade. Im Gegensatz dazu hat das eingeschränkte Modell ( fit1) nur1Freiheitsgrad. Der Unterschied zwischenModell uneingeschränkt df- -Modell eingeschränkt df=1ist die Anzahl der Einschränkungen, die in der Ausgabe der Anova-Tabelle als angezeigt werden Df 1.


RESIDUAL SUMME VON QUADRATEN & R QUADRATISCH:

Berechnen wir den RSS ( Restsumme der Quadrate ), auch als Summe der quadratischen Fehler (SSE) bekannt, und den F-Wert . Dazu sind die einschlägigen manuellen Berechnungen:

Mittlere abhängige Variable: y¯

mu_mpg <- mean(mtcars$mpg)                      # Mean mpg in dataset

Gesamtsumme der Quadrate (TSS): 1n(yich- -y¯)2

TSS <- sum((mtcars$mpg - mu_mpg)^2)             # Total sum of squares

Modellsumme der Quadrate (MSS): 1n(y^ich- -y¯)2

MSS_fit1 <- sum((fitted(fit1) - mu_mpg)^2)      # Variation accounted for by model
MSS_fit2 <- sum((fitted(fit2) - mu_mpg)^2)      # Variation accounted for by model

Restquadratsumme (RSS, auch SSE): 1n(yich- -y^)2

RSS_fit1 <- sum((mtcars$mpg - fitted(fit1))^2)  # Error sum of squares fit1

RSS_fit1 278,3219

RSS_fit2 <- sum((mtcars$mpg - fitted(fit2))^2)  # Error sum of squares fit2

RSS_fit2 195,4636

Beachten Sie, dass die RSSSpalte in der ANOVA Tabelle entspricht , RSS_fit1 = 278.3219und RSS_fit2 = 195.4636der manuellen Berechnungen oben.

In der ANOVA- Tabelle haben wir auch die Differenz in RSS: sum(residuals(fit1)^2)-sum(residuals(fit2)^2) = 82.85831oder berechnet wie oben angegeben:

RSS_fit1 - RSS_fit2=82.85831, angegeben in der Anova-Tabelle als Sum of Sq.

Bruchteil RSS / TSS:

Frac_RSS_fit1 <- RSS_fit1 / TSS                 # % Variation secndry to residuals fit1
Frac_RSS_fit2 <- RSS_fit2 / TSS                 # % Variation secndry to residuals fit2

R-Quadrat des Modells: 1- -R.S.S./.T.S.S.

R.sq_fit1 <- 1 - Frac_RSS_fit1                  # % Variation secndry to Model fit1

R.sq_fit1 0,7528328 Vergleiche mit Zusammenfassung (fit1) $ r.square 0.7528328

R.sq_fit2 <- 1 - Frac_RSS_fit2                  # % Variation secndry to Model fit2

R.sq_fit2 0,8264161 Vergleiche mit Zusammenfassung (fit2) $ r.square 0.8264161


F WERT:

n <- nrow(mtcars)                               # Number of subjects or observations

Constraints <- 1                 # Constraints imposed or difference in iv's fit2 vs. fit1
UnConstrained <- 2               # Independent variables uncontrained model (fit2)

F.=(R.mod.22- -R.mod.12)×(N.- -Nein. ungezwungenmod.2- -1)((1- -R.mod.22)×Nein. Einschränkungen)

mit N. entsprechend der Anzahl der Beobachtungen; Nein. ungezwungendie Anzahl der unabhängigen Variablen im vollständigen Modell; undNein. Einschränkungen, der Unterschied in unabhängigen Variablen zwischen dem vollständigen und dem reduzierten Modell.

F_value=(R.sq_fit2 - R.sq_fit1) * (n - UnConstrained - 1) / ((1 - R.sq_fit2) * Constraints)

F_value # 12.29329

Und das p-value, was in diesem Fall ist 0.0015, was bedeutsam ist. [R] hat ein Sternensystem, um in diesem Fall auf das Signifikanzniveau hinzuweisen p < 0.01.


In Bezug auf eine grafischere Interpretation der ANOVA einer OLS-Regression können wir die Modellquadratvariation ( MSS) fit1als grüne Linien in der folgenden Darstellung visualisieren (entspricht der Varianz oder dem Signal "zwischen Gruppen"). Dies RSSist genau die Summe der Länge der roten Segmente, die die einzelnen Punkte von der angepassten Regressionslinie trennen (und entspricht der Varianz oder dem Rauschen "innerhalb der Gruppe"):

Geben Sie hier die Bildbeschreibung ein

( Code hier )

Antoni Parellada
quelle
coef(fit1)erzeugt die Regressionslinie von mpg ~ 37.2851 - 5.3445wt. In der obigen Darstellung geht mpges jedoch darum, 30wann wt=0statt was es sein sollte ( 37.2851). Wie können Sie dieses Dilemma erklären?
Erdogan CEVHER
Ich habe gerade das Problem herausgefunden. Es wäre besser, wenn Sie xlim=c(0,6), ylim=c(0, 40)der Handlung hinzufügen .
Erdogan CEVHER
2

Die erste Zeile bezieht sich auf Modell 1, das Modell, das enthält x1,x2,x3,x5. Dieses Modell hat einen Restfreiheitsgrad von 15.

Die zweite Zeile bezieht sich auf Modell 2, das Modell, das hinzugefügt wird x4. Durch Hinzufügen dieser zusätzlichen unabhängigen Variablen wird der Rest df auf 14 verringert.

BChan
quelle
Vielen Dank. Ich denke, ich bin jetzt verwirrter, haha. Ich verstehe nicht, warum es für beide Modelle keine mittlere Quadratsumme gibt. Ich denke, ich bin durcheinander mit Situationen, in denen wir Modelle vergleichen, die ebenfalls auf kategorialen Daten basieren.
B. Miller
Ohne die Quelle zu sehen, hat der Autor vermutlich nur genug von der ANOVA-Tabelle angezeigt, um einen Punkt zu verdeutlichen, und wollte den Leser nicht mit ablenkenden Informationen verwechseln.
BChan