Warum verwenden wir in der Überlebensanalyse semiparametrische Modelle (Cox-proportionale Gefahren) anstelle von vollständig parametrischen Modellen?

24

Ich habe das Cox Proportional Hazards-Modell untersucht, und diese Frage wird in den meisten Texten übersehen.

Cox schlug vor, die Koeffizienten der Hazard-Funktion mithilfe einer Partial-Likelihood-Methode anzupassen, aber warum nicht einfach die Koeffizienten einer parametrischen Überlebensfunktion mithilfe der Maximum-Likelihood-Methode und eines linearen Modells?

In allen Fällen, in denen Sie Daten zensiert haben, können Sie nur den Bereich unter der Kurve finden. Wenn Ihre Schätzung beispielsweise 380 mit einer Standardabweichung von 80 ist und eine Stichprobe> 300 zensiert wird, liegt bei der Wahrscheinlichkeitsberechnung unter der Annahme eines normalen Fehlers eine Wahrscheinlichkeit von 84% für diese Stichprobe vor.

user1956609
quelle
So gerne ich hier versicherungsmathematische Fragen habe, muss ich sagen, dass diese Frage auf der Statistikseite Cross Validated wahrscheinlich eine bessere Antwort finden wird. Sie können einen Moderator auffordern, diese zu migrieren.
Grafik
Okay, wusste nicht, dass es das gibt. Ich bin nicht sicher, wie ich eine Migration anfordern soll. Bitte migrieren?
@Graphth, ich wusste auch nicht, dass es eine gibt ... Ich habe sie nicht in der Liste "Alle Websites" gefunden. Könnten Sie hier darauf verlinken? Vielen Dank

Antworten:

27

Wenn Sie die parametrische Verteilung kennen, der Ihre Daten folgen, verwenden Sie einen Maximum-Likelihood-Ansatz, und die Verteilung ist sinnvoll. Der eigentliche Vorteil der Cox Proportional Hazards-Regression besteht darin, dass Sie Überlebensmodelle anpassen können, ohne die Verteilung zu kennen (oder anzunehmen). Sie geben ein Beispiel unter Verwendung der Normalverteilung an, aber die meisten Überlebenszeiten (und andere Arten von Daten, für die die Cox-PH-Regression verwendet wird) kommen einer Normalverteilung nicht nahe. Einige folgen möglicherweise einer logarithmischen Normalverteilung, einer Weibullverteilung oder einer anderen parametrischen Verteilung, und wenn Sie bereit sind, diese Annahme zu treffen, ist der parametrische Ansatz mit maximaler Wahrscheinlichkeit groß. In vielen Fällen der realen Welt wissen wir jedoch nicht, wie die geeignete Verteilung aussieht (oder auch nur annähernd genug). Mit Zensur und Kovariaten können wir kein einfaches Histogramm erstellen und sagen "das sieht für mich nach einer ... Verteilung aus". Daher ist es sehr nützlich, eine Technik zu haben, die gut funktioniert, ohne eine bestimmte Distribution zu benötigen.

Warum die Gefahr anstelle der Verteilungsfunktion verwenden? Betrachten Sie die folgende Aussage: "Die Wahrscheinlichkeit, dass Menschen in Gruppe A im Alter von 80 Jahren sterben, ist doppelt so hoch wie in Gruppe B". Dies könnte der Fall sein, weil die Menschen in Gruppe B tendenziell länger leben als die in Gruppe A, oder weil die Menschen in Gruppe B tendenziell kürzer leben und die meisten von ihnen lange vor ihrem 80. Lebensjahr gestorben sind, was eine sehr geringe Wahrscheinlichkeit darstellt von ihnen sterben mit 80, während genug Menschen in Gruppe A bis zu 80 leben, so dass eine angemessene Anzahl von ihnen in diesem Alter sterben wird, was zu einer viel höheren Wahrscheinlichkeit des Todes in diesem Alter führt. Dieselbe Aussage könnte also bedeuten, dass es besser oder schlechter ist, in Gruppe A zu sein als in Gruppe B. Sinnvoller ist, von den Menschen (in jeder Gruppe), die 80 Jahre alt waren, zu sagen, welcher Anteil vor ihrem 81. Lebensjahr sterben wird. Das ist die Gefahr (und die Gefahr ist eine Funktion der Verteilungsfunktion / Überlebensfunktion / etc.) Die Gefahr ist im semiparametrischen Modell einfacher zu handhaben und kann Ihnen dann Informationen über die Verteilung geben.

Greg Snow
quelle
7
Gute Antwort. Das Einzigartige an der Zeit ist, dass sie in eine Richtung verläuft und dass wir uns nach einem Zeitraum mit hohem Risiko hauptsächlich für die jetzt geltenden Risiken interessieren. Das sagt uns die Gefahrenfunktion.
Frank Harrell
2
Ein weiterer Punkt, der hinzugefügt werden sollte, ist, dass die Überprüfung von Verteilungsannahmen bei zensierten Daten sehr schwierig sein kann. Angenommen, nur 20% Ihrer Probanden beobachten ein Ereignis. Der Versuch, festzustellen, ob die Schwänze der Verteilung einer Weibull-Verteilung folgen, wird eindeutig nicht möglich sein! Eine Cox-PH Modell etwas ausweicht das Problem (aber man muss sehr vorsichtig sein der Annahme proportional Gefahren , wenn Sie auf die Bereiche Zeiten extrapolieren wollen , die stark zensiert wurden)
Cliff AB
16

"Wir" nicht unbedingt. Die Palette der Überlebensanalysewerkzeuge reicht von vollständig nicht parametrischen Modellen wie der Kaplan-Meier-Methode bis zu vollständig parametrischen Modellen, bei denen Sie die Verteilung der zugrunde liegenden Gefahr angeben. Jeder hat seine Vor- und Nachteile.

Semiparametrische Methoden, wie das Cox-Modell für proportionale Gefahren, helfen Ihnen dabei, die zugrunde liegende Gefahrenfunktion nicht zu spezifizieren. Dies kann hilfreich sein, da wir die zugrunde liegende Gefahrenfunktion nicht immer kennen und in vielen Fällen auch nicht interessieren . Beispielsweise möchten viele epidemiologische Studien wissen, ob Exposition X die Zeit bis zum Ereignis Y verkürzt. Sie interessieren sich für den Unterschied zwischen Patienten mit und ohne X. In diesem Fall spielt das zugrunde liegende Risiko keine Rolle, und das Risiko, es falsch zu spezifizieren, ist schlimmer als die Konsequenzen, wenn man es nicht kennt.

Es gibt jedoch Zeiten, in denen dies auch nicht zutrifft. Ich habe mit vollparametrischer Modellen geleistete Arbeit , da die zugrunde liegende Gefahr war von Interesse.

Fomite
quelle
1
"... und das Risiko, es falsch zu spezifizieren, ist schlimmer als die Konsequenzen, es nicht zu wissen." Das war sehr hilfreich, danke.
Könnten Sie ein Beispiel nennen, wann die zugrunde liegende Gefahr von Interesse ist?
Dan Chaltiel
1
@DanChaltiel Jede Schätzung, die in ein mathematisches Modell oder ähnliches eingehen soll, wäre ein Beispiel - die zugrunde liegende Gefahrenfunktion ist dort von besonderem Interesse.
Fomite