Wenn die Hosmer-Lemeshow einen Mangel an Passform anzeigt, aber der AIC unter allen Modellen der niedrigste ist ... sollten Sie das Modell weiterhin verwenden?
Wenn ich eine Variable lösche, ist die Hosmer-Lemeshow-Statistik nicht signifikant (was bedeutet, dass es keinen groben Fitmangel gibt). Aber der AIC steigt.
Edit : Ich denke im Allgemeinen, wenn die AICs verschiedener Modelle nahe beieinander liegen (dh ), dann sind sie im Grunde gleich. Aber die AICs sind sehr unterschiedlich. Dies scheint darauf hinzudeuten, dass derjenige mit dem niedrigsten AIC derjenige ist, den ich verwenden sollte, obwohl der Hosmer-Lemeshow-Test etwas anderes anzeigt.
Vielleicht gilt der HL-Test auch nur für große Proben? Es hat eine geringe Leistung für kleine Stichprobengrößen (meine Stichprobengröße beträgt ~ 300). Aber wenn ich ein signifikantes Ergebnis erhalte ... Das bedeutet, dass ich selbst bei geringer Leistung eine Ablehnung bekomme.
Würde es einen Unterschied machen, wenn ich AICc im Vergleich zu AIC verwende? Wie bekommt man AICc's in SAS? Ich weiß, dass es Probleme mit der Vielfalt geben könnte. Aber a priori gehe ich davon aus, dass die Variablen einen Einfluss auf das Ergebnis haben.
Irgendwelche Kommentare?
Edit2 : Ich denke, ich sollte das Modell mit einer Variablen weniger und dem höheren AIC mit nicht signifikantem HL verwenden. Der Grund ist, dass zwei der Variablen miteinander korreliert sind. Es macht also Sinn, einen loszuwerden.
Antworten:
Der Hosmer-Lemeshow-Test ist zu einem gewissen Grad veraltet, da er eine willkürliche Einteilung der vorhergesagten Wahrscheinlichkeiten erfordert und keine ausgezeichnete Fähigkeit besitzt, einen Mangel an Kalibrierung festzustellen. Außerdem wird eine extreme Überanpassung des Modells nicht gänzlich bestraft. Bessere Methoden wie Hosmer, DW; Hosmer, T .; le Cessie, S. & Lemeshow, S. Ein Vergleich von Anpassungstests für das logistische Regressionsmodell. Statistics in Medicine , 1997, 16 , 965-980. Ihre neue Maßnahme ist im R umgesetztR2 c
rms
Paket. Noch wichtiger ist, dass diese Art der Bewertung nur die allgemeine Modellkalibrierung (Übereinstimmung zwischen vorhergesagtem und beobachtetem Wert) und nicht den Mangel an Passung wie die unsachgemäße Transformation eines Prädiktors berücksichtigt. AIC wird auch nicht verwendet, es sei denn, Sie verwenden AIC, um zwei Modelle zu vergleichen, bei denen eines flexibler ist als das andere, das getestet wird. Ich denke, Sie interessieren sich für prädiktive Diskriminierung, für die ein verallgemeinertesquelle
rms