Interpretation der Schrittausgabe in R.

11

In R soll der stepBefehl Ihnen helfen, die Eingabevariablen für Ihr Modell auszuwählen, oder?

Folgendes kommt von example(step)#-> swiss& step(lm1)

> step(lm1)
Start:  AIC=190.69
Fertility ~ Agriculture + Examination + Education + Catholic + 
    Infant.Mortality

                   Df Sum of Sq    RSS    AIC
- Examination       1     53.03 2158.1 189.86
<none>                          2105.0 190.69
- Agriculture       1    307.72 2412.8 195.10
- Infant.Mortality  1    408.75 2513.8 197.03
- Catholic          1    447.71 2552.8 197.75
- Education         1   1162.56 3267.6 209.36

Step:  AIC=189.86
Fertility ~ Agriculture + Education + Catholic + Infant.Mortality

                   Df Sum of Sq    RSS    AIC
<none>                          2158.1 189.86
- Agriculture       1    264.18 2422.2 193.29
- Infant.Mortality  1    409.81 2567.9 196.03
- Catholic          1    956.57 3114.6 205.10
- Education         1   2249.97 4408.0 221.43

Call:
lm(formula = Fertility ~ Agriculture + Education + Catholic +     Infant.Mortality, data = swiss)

Coefficients:
     (Intercept)       Agriculture         Education  
         62.1013           -0.1546           -0.9803  
        Catholic  Infant.Mortality  
          0.1247            1.0784  

Wenn ich mir das anschaue, denke ich, dass die letzte Schritttabelle das Modell ist, das wir verwenden sollten? Die letzten Zeilen enthalten die Funktion "Aufruf", die das tatsächliche Modell und die darin enthaltenen Eingabevariablen beschreibt, und die "Koeffizienten" sind die tatsächlichen Parameterschätzungen für diese Werte, richtig? Das ist also das Modell, das ich will, oder? Ich versuche dies auf mein Projekt zu extrapolieren, wo es mehr Variablen gibt.

Gakera
quelle

Antworten:

7

Die letzte Schritttabelle ist in der Tat das Endergebnis der "schrittweisen Regression". Die Einschränkung hierbei ist, dass Sie diesen Ansatz normalerweise nicht verwenden möchten, wenn es eine prinzipielle Möglichkeit gibt, sich Ihrer Modellspezifikation zu nähern. Der Aufruf ist der lm-Aufruf, der die im letzten Schritt verwendete Gleichung erzeugen würde. Koeffizienten sind die tatsächlichen Parameterschätzungen. Es ist bemerkenswert, dass, da Sie keinen Bereichs- oder Richtungsparameterschritt definiert haben, der standardmäßig einen "Rückwärts" -Schrittansatz verwendet, bei dem variable Begriffe für das Löschen bei jedem Schritt ausgewertet werden, bei jedem Schritt, wenn das Löschen der ausgewählten Variablen den AIC verringert, dieser entfernt wird aus dem Modell und der gesamte Prozess wiederholt sich, bis keine einzelne Variable mehr gelöscht werden kann. In Ihrem Beispiel im letzten Schritt Fruchtbarkeit ~ Landwirtschaft + Bildung + Katholik + Säugling.

russellpierce
quelle
2

Der Teil des Ausdrucks am Ende ist das Modell, das Ihnen übrig bleibt. Sie können es auch erhalten, wenn Sie den Wert der stepFunktion erfassen :

final.mod <- step(lm1)
final.mod
Aniko
quelle