Frage : Ich habe ein Wahrscheinlichkeitsmodell (Bayes'sches Netzwerk) zur Modellierung einer binären Ergebnisvariablen angepasst. Ich möchte ein hochauflösendes Kalibrierungsdiagramm (z. B. Spline) erstellen, das wegen Überanpassung mit Bootstrapping korrigiert wurde. Gibt es ein Standardverfahren zur Berechnung einer solchen Kurve?
Überlegungen : Ich könnte dies leicht mit Zug- / Testaufteilung tun, aber ich würde lieber keine Daten wegwerfen, da ich weniger als 20.000 Proben habe. Also habe ich natürlich über Bootstrapping nachgedacht. Ich weiß, dass eine solche Funktion (Kalibrieren) in Frank Harrells Effektivwertpaket implementiert ist, aber leider wird das von mir verwendete Modell vom Paket nicht unterstützt.
Bonus Frage : Ist es möglich , ein miscalibrated Modell neu zu kalibrieren mit Bootstrapping? Der Grund, warum ich dies frage, ist, dass ich versucht habe, ein Modell von neu zu kalibrieren
- Daten im Zug / Test aufteilen
- passendes Modell zum Zugset
- Modell neu kalibrieren, um das Set zu trainieren (mit einem kubischen Spline)
- Kalibrierung am Testgerät auswerten
Die auf die oben beschriebene Weise neu kalibrierten Modelle wurden am Zugsatz perfekt kalibriert, jedoch nicht so sehr am Testsatz, was wahrscheinlich auf eine leichte Überanpassung hinweist. Ich habe auch versucht, das Test-Set weiter aufzuteilen, auf einen Split zu kalibrieren und die Kalibrierung auf den zweiten Split auszuwerten. Ich habe bessere Ergebnisse erzielt (immer noch nicht perfekt kalibriert), aber die Sets wurden ziemlich klein (~ 1000 Proben) und daher war die Kalibrierung unzuverlässig
quelle
reticulate
. Ich könnte das Verfahren selbst implementieren, wenn ich es wüsste, aber ich habe es nirgendwo gefunden. Ich hoffe nur, dass Prof. Harrell diese Frage sieht: DAntworten:
Nachdem ich per E-Mail mit Prof. Frank Harrell gesprochen hatte, entwickelte ich das folgende Verfahren zur Schätzung der optimismuskorrigierten Kalibrierungskurve, das teilweise auf seinem Tutorial in Biostatistik (STATISTICS IN MEDICINE, BAND 15,361-387 (1996)) basiert:
Wichtiger Hinweis : Das obige Verfahren ist von Harrells Arbeit und meiner Diskussion mit ihm inspiriert, aber alle Fehler sind allein meine.
quelle