Eine einfache Möglichkeit, Cox-Überlebensmodelle zu kalibrieren, besteht darin, die calibrate
vom rms
Paket in R bereitgestellte Funktion wie auf der von Ihnen verlinkten Seite zu verwenden . Dieses Paket enthält eine cph
Methode für Cox-Modelle, die mit den Kalibrierungs- und Validierungsmethoden für verschiedene Arten von Regressionsmodellen zusammenarbeitet.
Zitat aus der Handbuchseite: "[ calibrate
u] verwendet Bootstrapping oder Kreuzvalidierung, um vorspannungskorrigierte (überanpassungskorrigierte) Schätzungen der vorhergesagten vs. beobachteten Werte zu erhalten." Statt binned Kaplan-Meier der Verwendung schätzt „beobachtet“ Werte jedoch zu schaffen, die Standard - cmethod="hare"
Einstellung calibrate
für cph
Modelle Verwendungen regression-Spline - Interpolation , die Schätzwerte für die nichtproportionale Gefahren und Nicht - Linearität ermöglichen , während take Berücksichtigung zensiert. Diese adaptive Modellierung der beobachteten Daten ermöglicht ein kontinuierliches Kalibrierungsdiagramm für eine bestimmte Überlebenszeit. Diese Übersicht enthält detailliertere Informationen zur HARE-Methode unter Bezugnahme auf das Originalpapier. (Wenn Sie cmethod="KM"
den Anruf an setzen, erhalten calibrate
Sie einen Vergleich mit Kaplan-Meier-Schätzungen.)
Bevor Sie dies tun, lesen Sie unbedingt die Handbuchseiten, um sicherzustellen, dass Sie das cph
Modell mit den richtigen Einstellungen generieren, die die Verwendung dieser Funktionen ermöglichen, und dass das polspline
Paket installiert ist, um die hare
Funktionalität bereitzustellen .
Frank Harrell, der Autor des rms
Pakets, vergleicht den binned Kaplan-Meier und kontinuierlichen HASE Ansatz auf den Seiten 506-9 von Regression Modellierung Stratgies , zweiter Auflage, und (mehr kryptisch) in seinem zugehörigen Skriptum , Kapitel 17, Seiten 18-19 .
Was ist los "unter der Haube"
Das Kalibrierungsproblem für die Überlebensanalyse besteht darin, dass Beobachtungen Ereignisse sind, während wir versuchen, die Wahrscheinlichkeiten der Ereignisse zu kalibrieren. Es ist also eine Art Interpolation erforderlich. Für Cox-Modelle wird eine bestimmte Überlebenszeit zur Analyse herangezogen.
Betrachten Sie die gruppierte KM-Kalibrierung. Sie beginnen mit der Gruppierung von Fällen nach vorhergesagten Wahrscheinlichkeiten. Anschließend zeichnen Sie für jede Gruppe ähnlicher vorhergesagter Wahrscheinlichkeiten die KM-Überlebenskurve und interpolieren zwischen diesen wenigen Fällen zum gewählten Überlebenszeitpunkt, um die geschätzte "beobachtete" Überlebenswahrscheinlichkeit für diese Gruppe zu erhalten.
Bei dem von calibrate
für cph
Modelle verwendeten Ansatz interpolieren Sie stattdessen zunächst die Gefahr unter allen Fällen als allgemeine Funktion der Prädiktorvariablen und der Zeit. Diese allgemeine Funktion, wie vonhare
ermöglicht die Modellierung jeder Prädiktorvariablen und -zeit als linearen Spline und ermöglicht paarweise Interaktionen zwischen den Variablen (einschließlich der Zeit als Variable). Die Sammlung von Splines und Interaktionen bietet eine Reihe von Basisfunktionen, von denen jede eine Funktion von Prädiktorvariablen und Zeit ist. Anschließend suchen Sie nach der Kombination dieser Basisfunktionen, die am besten zu den Überlebensdaten passen, wobei die Koeffizienten die durch Maximierung der Teilwahrscheinlichkeit geschätzten Basisfunktionen gewichten, ähnlich wie ein Cox-Modell Koeffizienten für die Prädiktorvariablen selbst findet. Die Komplexität des Modells (z. B. welche Basisfunktionen eingeschlossen werden sollen, Anzahl der Spline-Knoten) wird durch einen schrittweisen Additions- und Löschprozess ausgewählt, der in der oben angegebenen Gliederung ausführlich erläutert wird .
Das Ergebnis des hare
Prozesses ist eine einzelne Funktion, die die Gefahr als Funktion aller Prädiktorvariablen und der Zeit in einer Form bereitstellt, die typischerweise viel komplizierter ist als das Cox-Modell mit proportionalen Gefahren. Ich stelle mir dies gerne so vor, dass mit einer Interpolation aller Fälle zu jeder Zeit zusammen mit den zugehörigen Werten der Prädiktorvariablen begonnen wird und nicht mit der Interpolation auf eine bestimmte Zeit für eine Teilmenge von Fällen, die im gruppierten KM-Kalibrierungsschema verwendet werden.
Mit der von bereitgestellten Hazard-Funktion hare
können Sie jetzt eine beliebige Kombination von Prädiktorvariablenwerten verwenden und die "vorhergesagte" Cox-Überlebenswahrscheinlichkeit zu einem bestimmten Zeitpunkt mit der interpolierten Schätzung der "beobachteten" Überlebenswahrscheinlichkeit von vergleichen hare
. (Beachten Sie, dass Sie im Prinzip nicht auf die für diesen Vergleich vorliegenden Fälle beschränkt sind. Es kann jede vernünftige Kombination von Prädiktorvariablenwerten untersucht werden.) Die Kalibrierungskurve ist dann eine geglättete Darstellung der Überlebenswahrscheinlichkeit "beobachtet" gegen "vorhergesagt" unter allen Fällen zum gewünschten Zeitpunkt. Die calibrate
Methode rms
wiederholt diesen Vorgang für mehrere Bootstrap-Stichproben aus den Fällen, um zu beurteilen, wie gut sich die Ergebnisse auf die Population verallgemeinern lassen, aus der die Fälle stammen.
Wenn Sie nicht nur unter die Haube schauen, sondern auch die Engine dekonstruieren möchten, ist dies in R einfach. Wenn das rms
Paket geladen ist, geben Sie rms:::calibrate.cph
an der Eingabeaufforderung ein, um den Code für diese calibrate
Methode abzurufen. Der Wrapper für hare
ist verfügbar, indem Sie hare
beim polspline
Laden des Pakets an der Eingabeaufforderung eingeben . Ein Großteil der Arbeit wird von kompilierten Funktionen erledigt, deren Quellcode bei CRAN erhältlich ist .