Angenommen, ich habe einige Modelle mit Prädiktoren (und der Antwortvariablen) aus demselben Datensatz angepasst.
Welche Änderungen am Modell machen es für mich unangemessen, die Modelle auf der Basis von AIC zu vergleichen?
1) Angenommen, wenn ich die Transformation der abhängigen Variablen protokolliere, ist es fair, sie mit einem Modell zu vergleichen, bei dem keine Transformation stattgefunden hat?
2) Wenn ich Prädiktoren aus dem Modell entfernen würde, könnte ich es dann mit Modellen vergleichen, bei denen alle Prädiktoren hinzugefügt wurden?
3) Wenn ich zwei Glms mit unterschiedlichen Familien für die beiden passe, kann ich sie trotzdem auf der Basis von AIC vergleichen? Was ist mit verschiedenen Linkfunktionen?
Danke für deinen Beitrag.
Antworten:
Wenn Sie zwei Modelle und für eine Stichprobe haben , können Sie AIC verwenden, um sie zu vergleichen, solange die Modelle sinnvoll sind. Dies bedeutet natürlich nicht, dass AIC unter den Wettbewerbern das Modell auswählt, das der Wahrheit am nächsten kommt, da AIC auf asymptotischen Ergebnissen basiert. Angenommen, Sie möchten in einem extremen Szenario zwei Modelle vergleichen, eines mit einem einzelnen Parameter und eines mit 100 Parametern, und die Stichprobengröße beträgtM1 M2 (y1,…,yn) 101 . Dann wird erwartet, dass bei der Schätzung des Modells mit 100 Parametern eine sehr geringe Genauigkeit beobachtet wird, während bei dem Modell mit 1 Parameter es wahrscheinlich ist, dass der Parameter genau geschätzt wird. Dies ist eines der Argumente gegen die Verwendung von AIC zum Vergleich von Modellen, für die die Wahrscheinlichkeitsschätzer sehr unterschiedliche Konvergenzraten aufweisen. Dies kann sogar bei Modellen mit der gleichen Anzahl von Parametern passieren.
Dies wird als schrittweise Auswahl von AIC-Variablen bezeichnet. Bereits im R-Befehl implementiert
stepAIC()
.Auch hier ist es sinnvoll, die Daten mit solchen Modellen zu modellieren.
Einige interessante Diskussionen zur Verwendung von AIC finden Sie hier:
AIC Mythen und Missverständnisse
quelle