Ich habe ein schrittweise abgeleitetes binäres logistisches Regressionsmodell. Ich habe die calibrate(, bw=200, bw=TRUE)
Funktion im rms
Paket in R verwendet, um die zukünftige Kalibrierung abzuschätzen. Die Ausgabe ist unten angegeben und zeigt die durch die Bootstrap-Überanpassung korrigierte Kalibrierungskurvenschätzung für das logistische Rückwärts-Abwärtsmodell. Ich bin mir jedoch nicht sicher, wie ich es interpretieren soll.
Ich verstehe, dass sich die Kalibrierung darauf bezieht, ob die zukünftig vorhergesagten Wahrscheinlichkeiten mit den beobachteten Wahrscheinlichkeiten übereinstimmen. Vorhersagemodelle leiden darunter, dass Vorhersagen für neue Probanden zu extrem sind (dh dass die beobachtete Wahrscheinlichkeit des Ergebnisses höher ist als für Probanden mit geringem Risiko vorhergesagt und niedriger als für Probanden mit hohem Risiko vorhergesagt). Dies wird durch Verfolgen der gepunkteten Kurve gesehen, die höher als das Ideal (gestrichelt) für eine Gruppe mit geringem Risiko und niedriger als das Ideal für eine Gruppe mit hohem Risiko ist.
Mit der gleichen Überlegung scheint die vorspannungskorrigierte Kurve in dem Sinne schlechter zu sein, dass sie noch extremere Wahrscheinlichkeiten erzeugt. Ist meine Interpretation korrekt?
bw=200
sollte lesenbw=TRUE
Antworten:
Die mit
bias-corrected
" Beschriftung " bezeichnete Kurve scheint "zu zuversichtlich" zu sein: Ihre Vorhersagen fürPredicted P(Class=1)<0.5
sind zu niedrig und ihre Vorhersagen fürPredicted P(Class=1)>0.5
sind im Vergleich zu zu hochActual probability
.Dies gilt auch für die beschriftete Kurvel e s s
apparent
, außer an den Extremen (ungefähr: x <= 0,28 oder x> = 0,9) scheint sie tatsächlich sicher zu sein.Ich bin mir nicht sicher über die Details der Bias-Korrekturmethode inrms
, aber ich denke nicht, dass das Ergebnis notwendigerweise "schlechter" ist. Mit der Korrektur sind die Wahrscheinlichkeitsschätzungen parallel zum Ideal. Mit anderen Worten, obwohl bekannt ist, dass das Modell leicht übermütig ist, können wir sagen, dass der Unterschied zwischen seiner mittleren Vorhersage für eine Population mit P (Klasse) = 0,2 die Hälfte seiner mittleren Vorhersage für eine Population mit P (Klasse) = 0,4 ist , was vorher nicht der Fall war und wahrscheinlich das, worauf man hoffen würde.quelle