Angenommen, ich habe ein Vorhersagemodell für das Auftreten einer bestimmten Krankheit in einem Datensatz (dem Datenbestand zur Modellbildung) erstellt und möchte nun überprüfen, wie gut das Modell in einem neuen Datensatz (dem Validierungsdatenbestand) funktioniert. Für ein mit logistischer Regression erstelltes Modell würde ich die vorhergesagte Wahrscheinlichkeit für jede Person im Validierungsdatensatz basierend auf den Modellkoeffizienten berechnen, die aus dem Modellbildungsdatensatz erhalten wurden, und dann, nachdem ich diese Wahrscheinlichkeiten bei einem bestimmten Grenzwert dichotomisiert habe, kann ich eine 2x2-Tabelle erstellen das erlaubt mir, die wahre positive Rate (Empfindlichkeit) und die wahre negative Rate (Spezifität) zu berechnen. Außerdem kann ich die gesamte ROC-Kurve durch Variation des Cutoffs konstruieren und dann die AUC für den ROC-Graphen erhalten.
Angenommen, ich habe tatsächlich Überlebensdaten. Daher habe ich ein Cox-Modell für proportionale Gefährdungen im Modellbildungsdatensatz verwendet und möchte nun überprüfen, wie gut das Modell im Validierungsdatensatz funktioniert. Da das Basisrisiko in Cox-Modellen keine parametrische Funktion ist, kann ich nicht erkennen, wie ich die vorhergesagte Überlebenswahrscheinlichkeit für jede Person im Validierungsdatensatz basierend auf den im Modellaufbau-Datensatz erhaltenen Modellkoeffizienten ermitteln kann. Wie kann ich überprüfen, wie gut das Modell im Validierungsdatensatz funktioniert? Gibt es dafür etablierte Methoden? Und wenn ja, sind sie in irgendeiner Software implementiert? Vielen Dank im Voraus für alle Vorschläge!
quelle
Ich weiß, dass diese Frage ziemlich alt ist, aber was ich getan habe, als ich auf dasselbe Problem gestoßen bin, war, die Vorhersagefunktion zu verwenden, um eine "Punktzahl" für jedes Thema im Validierungssatz zu erhalten. Anschließend wurden die Probanden danach aufgeteilt, ob der Score höher oder niedriger als der Median war, und die Kaplan-Meier-Kurve aufgetragen. Dies sollte eine Trennung der Subjekte anzeigen, wenn Ihr Modell vorhersagbar ist. Ich habe auch die Korrelation von Score (tatsächlich von seinem ln [für die Normalverteilung]) mit dem Überleben unter Verwendung der Coxph-Funktion aus dem Überlebenspaket in R getestet.
quelle