Wie bewertet man die Anpassungsgüte für Überlebensfunktionen?

9

Ich bin ein Neuling in der Überlebensanalyse, obwohl ich einige Kenntnisse in Klassifikation und Regression habe.

Für die Regression haben wir MSE- und R-Quadrat-Statistiken. Aber wie können wir sagen, dass das Überlebensmodell A neben einigen grafischen Darstellungen (KM-Kurve) dem Überlebensmodell B überlegen ist?

Wenn möglich, erläutern Sie den Unterschied anhand eines Beispiels (z. B. Teilpaket in R). Wie können Sie zeigen, dass ein CART-Überlebensbaum besser ist als ein anderer CART-Überlebensbaum? Welche Metriken können verwendet werden?

Überflutung
quelle
3
Es gibt verschiedene Arten der Überlebensanalyse. Einige von ihnen basieren tatsächlich auf Regression. Einige von ihnen, wie das KM, könnten leichter als Schätzer für überlebensbezogene Statistiken angesehen werden.
Alexis
Vielen Dank für Ihre fortgesetzten Bemühungen, Ihre Frage zu verbessern. Ich vermute, dass es jetzt für den Lebenslauf verantwortlich / angemessen ist. Ich habe es für die Wiedereröffnung nominiert. Wir werden sehen, ob andere zustimmen. Es könnte hilfreich sein, wenn Sie zwei Überlebensmodelle vom Typ CART veröffentlichen, mit denen die Benutzer diese Probleme erklären können.
Gung - Reinstate Monica
1
Ben, im Grunde sagen Sie also, dass es in einer Cox Proportional Hazard Regression (bisher) keine gute Möglichkeit gibt, die Güte der Passform zu bewerten? R-Square führt nicht zu guten Ergebnissen, weil es zensierte Beobachtungen und unzensierte Beobachtungen nicht richtig verarbeiten kann? Sie sprechen von Harrells c. Habe ich Sie richtig verstanden, dass diese Methode nicht auf eine Cox-PH-Regression anwendbar ist?
Kosta S.

Antworten:

9

R.2(in einer anderen Antwort beschrieben) ist, dass es sehr stark von der Zensurverteilung Ihrer Daten abhängt. Andere natürliche Dinge, die Sie möglicherweise betrachten, wie das Wahrscheinlichkeitsverhältnis zum Nullmodell, haben ebenfalls dieses Problem. (Dies liegt im Wesentlichen daran, dass sich der Beitrag eines zensierten Datenpunkts zur Wahrscheinlichkeit stark vom Beitrag eines Datenpunkts unterscheidet, an dem das Ereignis beobachtet wird, da einer von ihnen aus einem PDF und einer von einem CDF stammt.) Verschiedene Forscher haben Vorgeschlagene Wege, um dies zu umgehen, aber die, die ich gesehen habe, erfordern normalerweise, dass Sie ein Modell der Zensurverteilung oder etwas ähnlich Unpraktisches haben. Ich habe nicht untersucht, wie schlimm diese Abhängigkeit in der Praxis ist. Wenn Ihre Zensur also recht gering ist, können Sie sich dennoch mit Statistiken befassen, die auf dem Wahrscheinlichkeitsverhältnis basieren. Für Überlebens-CART-Modelle,

τist auch weniger empfindlich als die oben genannten Statistiken, sodass Sie möglicherweise nicht zwischen darauf basierenden Modellen wählen möchten, wenn der Unterschied zwischen ihnen gering ist. Es ist nützlicher als ein interpretierbarer Index der allgemeinen Leistung als eine Möglichkeit, verschiedene Modelle zu vergleichen.

(Schließlich können Sie natürlich, wenn Sie einen bestimmten Zweck für die Modelle im Auge haben - das heißt, wenn Sie wissen, was Ihre Vorhersageverlustfunktion ist -, sie immer nach der Verlustfunktion bewerten! Aber ich vermute, Sie ' Ich bin nicht so glücklich ...)

Für eine eingehendere Diskussion sowohl der Likelihood-Ratio-Statistiken als auch von Harrells c sollten Sie sich Harrells hervorragende Lehrbuch- Regressionsmodellierungsstrategien ansehen . Der Abschnitt zur Bewertung von Überlebensmodellen ist §19.10, S. 492-493. Es tut mir leid, dass ich Ihnen keine endgültige Antwort geben kann, aber ich denke nicht, dass dies ein gelöstes Problem ist!

Ben Kuhn
quelle
5

Cox-Regressionen proportionaler Gefahren für Überlebensdaten können in vielerlei Hinsicht als Standardregressionen angesehen werden. Beispielsweise liefern Cox-Regressionen auch verbleibende Standardfehler und R-Quadrat-Statistiken. Siehe die coxphFunktion im R- survivalPaket. (Sie können sich KM-Kurven als nicht parametrische Analysen in Standardstatistiken vorstellen. Wie würden Sie einen nicht parametrischen Test in CART integrieren?) In der Praxis mit klinischen Daten sind die verbleibenden Standardfehler tendenziell hoch und die R-Quadrat-Werte niedrig in der Cox-Regression.

Daher haben Standardregressionen und Cox-Regressionen ähnliche Anforderungen und Einschränkungen. Sie müssen überprüfen, ob die Daten den zugrunde liegenden Annahmen entsprechen, was in der Cox-Analyse auch die Annahme einschließt, dass die verglichenen Gefahren über die Zeit proportional sind. Sie müssen immer noch eine Überanpassung vermeiden und Ihr Modell validieren. Und so wie ich CART verstehe, werden Sie, obwohl ich es selbst nicht benutze, immer noch mit den Schwierigkeiten konfrontiert sein, die sich aus dem Vergleich nicht verschachtelter Modelle ergeben.

EdM
quelle
Vielen Dank für Ihre Antwort auf den Unterschied und die Beziehungen zwischen Cox-Regression und Regression. Aber ich möchte wissen, wie man zwei Überlebensmodelle des Entscheidungsbaums (rART) vergleicht.
Überflutung
Das Open-Access-Papier, das unter projecteuclid.org/euclid.ssu/1315833185 verlinkt ist , ist eine relativ aktuelle Überprüfung und ein Vergleich von Methoden zum Erstellen und Auswählen von Überlebensbäumen, basierend auf rpartund anderen R-Paketen und Code.
EdM
Vielen Dank, dass Sie auf das Papier hingewiesen haben. Ich werde die Zeitung jetzt lesen.
Floodking