AIC- oder p-Wert: Welchen wählen Sie für die Modellauswahl?

22

Ich bin ganz neu in dieser R-Sache, bin mir aber nicht sicher, welches Modell ich wählen soll.

  1. Ich habe eine schrittweise Vorwärtsregression durchgeführt , bei der jede Variable basierend auf dem niedrigsten AIC ausgewählt wurde. Ich habe mir 3 Modelle ausgedacht, bei denen ich nicht sicher bin, welches das "beste" ist.

    Model 1: Var1 (p=0.03) AIC=14.978
    Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543
    Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
    

    Ich bin geneigt, Modell 3 zu wählen, da es den niedrigsten AIC hat (ich habe gehört, dass ein negativer Wert in Ordnung ist) und die p-Werte immer noch ziemlich niedrig sind.

    Ich habe 8 Variablen als Prädiktoren für Hatchling Mass ausgeführt und festgestellt, dass diese drei Variablen die besten Prädiktoren sind.

  2. Mein nächster Schritt nach vorne Ich wähle Modell 2, weil obwohl der AIC etwas größer war, die p-Werte alle kleiner waren. Stimmen Sie zu, dass dies das Beste ist?

    Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222)  AIC = 25.63
    Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056)                  AIC = 26.518
    Model 3: Var1 (p=0.258) + Var2 (p=0.0254)                                   AIC = 36.905
    

Vielen Dank!

MEL
quelle
Können Sie uns den Unterschied zwischen (1) und (2) erklären? Offensichtlich hat sich etwas geändert, da Modell 3 in (1) und Modell 2 in (2) nominell identisch sind, sich jedoch die p-Werte und der AIC unterscheiden.
Whuber
2
Diese Frage wurde zweimal erneut gestellt, was bedeutet, dass nicht nur wir sie schließen müssen, sondern auch die zugehörigen Antworten, die Ihnen bereits zur Verfügung gestellt wurden. Könnten Sie bitte Ihr Konto registrieren (siehe FAQ ) und in Zukunft die StackExchange-Veröffentlichungsrichtlinie beachten? Vielen Dank.
Chl
@whuber, ich fürchte, ich verstehe deine Frage nicht ganz. Es ist wahrscheinlich mein Mangel an statistischem Verständnis. Aber um es zu klären. Modell 1 hat 4 Variablen, Modell 2 hat 3 Variablen und Modell 3 hat 2 Variablen. Die Variablen sind in jedem Modell in der gleichen Reihenfolge angeordnet (dh Variable eins = Temp in jedem Modell). Ich denke, @GaBorgulya und @djma haben meine Frage perfekt beantwortet. Variable 4 korreliert mit Variable 3. AH-HA! Macht Sinn. danke oodles!
MEL
Ich habe Ihre Antwort auf den obigen Kommentar konvertiert. Wenn Sie der Meinung sind, dass eine der aktuellen Antworten Ihnen geholfen oder Ihre Frage beantwortet hat, vergessen Sie nicht, sie anzunehmen, wie von @richiemorrisroe freundlich erinnert. Übrigens, schön zu sehen, dass Sie Ihr Konto registriert haben.
chl

Antworten:

23

AIC ist ein Maß für die Anpassungsgüte, das einen geringeren Restfehler im Modell begünstigt, jedoch die Einbeziehung weiterer Prädiktoren und die Vermeidung einer Überanpassung bestraft. In Ihrem zweiten Modellsatz kann Modell 1 (das Modell mit dem niedrigsten AIC) die beste Leistung erzielen, wenn es für die Vorhersage außerhalb Ihres Datensatzes verwendet wird. Eine mögliche Erklärung, warum die Addition von Var4 zu Modell 2 zu einem niedrigeren AIC führt, aber zu höheren p-Werten, ist, dass Var4 in gewisser Weise mit Var1, 2 und 3 korreliert. Die Interpretation von Modell 2 ist daher einfacher.

GaBorgulya
quelle
31

Die Betrachtung einzelner p-Werte kann irreführend sein. Wenn Sie Variablen haben, die kollinear sind (eine hohe Korrelation aufweisen), erhalten Sie große p-Werte. Dies bedeutet nicht, dass die Variablen unbrauchbar sind.

Als Faustregel gilt, dass die Auswahl Ihres Modells anhand der AIC-Kriterien besser ist als die Betrachtung von p-Werten.

Ein Grund, warum Sie möglicherweise nicht das Modell mit dem niedrigsten AIC auswählen, ist das große Verhältnis von Variable zu Datenpunkt.

Beachten Sie, dass Modellauswahl und Vorhersagegenauigkeit unterschiedliche Probleme darstellen. Wenn Sie genaue Vorhersagen erzielen möchten, empfehlen wir Ihnen, Ihr Modell durch Trennung Ihrer Daten in einen Trainings- und Testsatz zu überprüfen.

Ein Beitrag zur Variablenauswahl: Stochastische Stufenensembles zur Variablenauswahl

djma
quelle
4
Wenn Ihr Ziel die Vorhersagegenauigkeit ist, möchten Sie AIC verwenden (da dies die erwartete KL-Divergenz zwischen dem angepassten Modell und der Wahrheit minimiert). Wenn Sie ein konsistentes Modellauswahlverfahren wünschen (festes p, wachsendes n), können Sie stattdessen beispielsweise BIC verwenden. Die Verwendung von p-Werten in schrittweiser Regression zur Auswahl von Hypothesen wird definitiv nicht empfohlen.
Emakalic
8
0,154|t|>Log(N)
-3

AIC wird durch die Schätzung des Generalisierungsfehlers motiviert (wie Mallows CP, BIC, ...). Wenn Sie das Modell für Vorhersagen verwenden möchten, verwenden Sie besser eines dieser Kriterien. Wenn Sie möchten, dass Ihr Modell ein Phänomen erklärt, verwenden Sie p-Werte.

Siehe auch hier .

JohnRos
quelle