Ich bin ganz neu in dieser R-Sache, bin mir aber nicht sicher, welches Modell ich wählen soll.
Ich habe eine schrittweise Vorwärtsregression durchgeführt , bei der jede Variable basierend auf dem niedrigsten AIC ausgewählt wurde. Ich habe mir 3 Modelle ausgedacht, bei denen ich nicht sicher bin, welches das "beste" ist.
Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543 Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
Ich bin geneigt, Modell 3 zu wählen, da es den niedrigsten AIC hat (ich habe gehört, dass ein negativer Wert in Ordnung ist) und die p-Werte immer noch ziemlich niedrig sind.
Ich habe 8 Variablen als Prädiktoren für Hatchling Mass ausgeführt und festgestellt, dass diese drei Variablen die besten Prädiktoren sind.
Mein nächster Schritt nach vorne Ich wähle Modell 2, weil obwohl der AIC etwas größer war, die p-Werte alle kleiner waren. Stimmen Sie zu, dass dies das Beste ist?
Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222) AIC = 25.63 Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056) AIC = 26.518 Model 3: Var1 (p=0.258) + Var2 (p=0.0254) AIC = 36.905
Vielen Dank!
Antworten:
AIC ist ein Maß für die Anpassungsgüte, das einen geringeren Restfehler im Modell begünstigt, jedoch die Einbeziehung weiterer Prädiktoren und die Vermeidung einer Überanpassung bestraft. In Ihrem zweiten Modellsatz kann Modell 1 (das Modell mit dem niedrigsten AIC) die beste Leistung erzielen, wenn es für die Vorhersage außerhalb Ihres Datensatzes verwendet wird. Eine mögliche Erklärung, warum die Addition von Var4 zu Modell 2 zu einem niedrigeren AIC führt, aber zu höheren p-Werten, ist, dass Var4 in gewisser Weise mit Var1, 2 und 3 korreliert. Die Interpretation von Modell 2 ist daher einfacher.
quelle
Die Betrachtung einzelner p-Werte kann irreführend sein. Wenn Sie Variablen haben, die kollinear sind (eine hohe Korrelation aufweisen), erhalten Sie große p-Werte. Dies bedeutet nicht, dass die Variablen unbrauchbar sind.
Als Faustregel gilt, dass die Auswahl Ihres Modells anhand der AIC-Kriterien besser ist als die Betrachtung von p-Werten.
Ein Grund, warum Sie möglicherweise nicht das Modell mit dem niedrigsten AIC auswählen, ist das große Verhältnis von Variable zu Datenpunkt.
Beachten Sie, dass Modellauswahl und Vorhersagegenauigkeit unterschiedliche Probleme darstellen. Wenn Sie genaue Vorhersagen erzielen möchten, empfehlen wir Ihnen, Ihr Modell durch Trennung Ihrer Daten in einen Trainings- und Testsatz zu überprüfen.
Ein Beitrag zur Variablenauswahl: Stochastische Stufenensembles zur Variablenauswahl
quelle
AIC wird durch die Schätzung des Generalisierungsfehlers motiviert (wie Mallows CP, BIC, ...). Wenn Sie das Modell für Vorhersagen verwenden möchten, verwenden Sie besser eines dieser Kriterien. Wenn Sie möchten, dass Ihr Modell ein Phänomen erklärt, verwenden Sie p-Werte.
Siehe auch hier .
quelle