Bei Verwendung des Befehls drop1 in R für die Modellbildung muss die Variable mit dem niedrigsten AIC-Wert gelöscht werden. Was könnte der Grund dafür sein? Ich weiß, dass AIC über Informationsverlust spricht und ein niedrigerer AIC-Wert besser ist, aber das Löschen einer Variablen mit niedrigem AIC scheint nicht intuitiv zu sein. Kann jemand bitte den Grund dafür erklären?
r
regression
aic
Jash Shah
quelle
quelle
Antworten:
Der angegebene AIC von
drop1
bezieht sich auf das gesamte Modell - nicht auf eine Variable. Die Ausgabe gibt daher an, welche Variable entfernt werden muss, um das Modell mit dem niedrigsten AIC zu erhalten. Zum Beispiel mit dem eingebauten Datensatzswiss
Hier
Examination
ergibt das Entfernen von das Modell mit dem niedrigsten AICIn einem verwandten Punkt ist es zwar besser, AIC als p-Werte zu verwenden, es wird jedoch als schlechte Praxis angesehen, automatische Modellauswahlalgorithmen zu verwenden: Algorithmen für die automatische Modellauswahl
quelle
pchisq(2,1,lower.tail=FALSE)
); es entspricht einem zweiseitigen z-Test-p-Wert (pnorm(sqrt(2),lower.tail=FALSE)*2
), und wenn die df nicht ziemlich klein sind, nähert es sich auch einem t-Test- oder F-Test-p-Wert-Cutoff (über 40 df sind es 16%) sehr nahe auf das nächste ganze Prozent für jeden df)