In R mache ich eine Überlebensdatenanalyse von Krebspatienten.
Ich habe sehr hilfreiche Artikel über Überlebensanalysen in CrossValidated und anderen Orten gelesen und denke, ich habe verstanden, wie man die Cox-Regressionsergebnisse interpretiert. Ein Ergebnis nervt mich jedoch immer noch ...
Ich vergleiche das Überleben mit dem Geschlecht. Die Kaplan-Meier-Kurven sprechen eindeutig für weibliche Patienten (ich habe mehrmals überprüft, ob die von mir hinzugefügte Legende korrekt ist, die Patientin mit dem maximalen Überleben von 4856 Tagen ist tatsächlich eine Frau):
Und die Cox-Regression kehrt zurück:
Call:
coxph(formula = survival ~ gender, data = Clinical)
n= 348, number of events= 154
coef exp(coef) se(coef) z Pr(>|z|)
gendermale -0.3707 0.6903 0.1758 -2.109 0.035 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
exp(coef) exp(-coef) lower .95 upper .95
gendermale 0.6903 1.449 0.4891 0.9742
Concordance= 0.555 (se = 0.019 )
Rsquare= 0.012 (max possible= 0.989 )
Likelihood ratio test= 4.23 on 1 df, p=0.03982
Wald test = 4.45 on 1 df, p=0.03499
Score (logrank) test = 4.5 on 1 df, p=0.03396
Das Hazards Ratio (HR) für männliche Patienten ( gendermale
) beträgt also 0,6903. Ich würde das so interpretieren (ohne die Kaplan-Meier-Kurve zu betrachten): Da die HR <1 ist, ist es schützend, ein Patient männlichen Geschlechts zu sein. Genauer gesagt ist die Wahrscheinlichkeit, dass eine Patientin zu einem bestimmten Zeitpunkt stirbt, um 1 / 0,6903 = exp (-coef) = 1,449 höher als die eines Mannes.
Aber das scheint nicht das zu sein, was die Kaplan-Meier-Kurven sagen! Was ist los mit meiner Interpretation?
quelle
Antworten:
Dies ist ein sehr gutes Beispiel für nicht proportionale Gefahren ODER den Effekt der "Erschöpfung" in der Überlebensanalyse. Ich werde versuchen, es zu erklären.
Schauen Sie sich zunächst Ihre Kaplan-Meier (KM) -Kurve genau an: Sie können im ersten Teil (bis etwa 3000 Tage) sehen, dass der Anteil der noch lebenden Männer in der zum Zeitpunkt t gefährdeten Bevölkerung größer ist als der Anteil der Frauen (dh die blaue Linie ist 'höher' als die rote). Dies bedeutet, dass das männliche Geschlecht für das untersuchte Ereignis (Tod) tatsächlich „schützend“ ist. Dementsprechend sollte das Gefährdungsverhältnis zwischen 0 und 1 liegen (und der Koeffizient sollte negativ sein).
Nach Tag 3000 ist die rote Linie jedoch höher! Dies würde in der Tat das Gegenteil bedeuten. Allein aufgrund dieses KM-Diagramms würde dies ferner auf eine nicht proportionale Gefahr hinweisen. In diesem Fall bedeutet "nicht proportional", dass der Effekt Ihrer unabhängigen Variablen (Geschlecht) über die Zeit nicht konstant ist. Mit anderen Worten, das Hazard - Verhältnis ist rentabel Mit der Zeit zu ändern. Wie oben erläutert, scheint dies der Fall zu sein. Das reguläre Cox-Modell mit proportionaler Gefährdung berücksichtigt solche Effekte nicht. Tatsächlich ist eine der Hauptannahmen, dass die Gefahren proportional sind! Jetzt können Sie auch nicht proportionale Gefahren modellieren, aber das geht über den Rahmen dieser Antwort hinaus.
Es gibt noch einen zusätzlichen Kommentar: Dieser Unterschied könnte darauf zurückzuführen sein, dass die tatsächlichen Gefahren nicht proportional sind oderdie Tatsache, dass die Schwanzschätzungen der KM-Kurven sehr unterschiedlich sind. Beachten Sie, dass zu diesem Zeitpunkt die Gesamtgruppe von 348 Patienten auf eine sehr kleine, noch gefährdete Population zurückgegangen ist. Wie Sie sehen können, haben beide Geschlechtergruppen Patienten, die das Ereignis erleben, und Patienten, die zensiert werden (die vertikalen Linien). Wenn die gefährdete Bevölkerung abnimmt, werden die Überlebensschätzungen weniger sicher. Wenn Sie 95% -Konfidenzintervalle um die KM-Linien aufgetragen hätten, würde die Breite des Konfidenzintervalls zunehmen. Dies ist auch für die Abschätzung von Gefahren wichtig. Einfach ausgedrückt, da die gefährdete Bevölkerung und die Anzahl der Ereignisse in der letzten Periode Ihrer Studie gering sind, wird diese Periode weniger zu den Schätzungen in Ihrem anfänglichen Cox-Modell beitragen.
Dies würde schließlich erklären, warum die Gefahr (die über die Zeit als konstant angenommen wird) eher mit dem ersten Teil Ihres KM als mit dem endgültigen Endpunkt übereinstimmt.
BEARBEITEN: Siehe @ Scrotchis präzisen Kommentar zur ursprünglichen Frage: Wie bereits erwähnt, führen niedrige Zahlen im letzten Zeitraum der Studie dazu, dass die Schätzungen der Gefahren zu diesen Zeitpunkten ungewiss sind. Folglich sind Sie auch weniger sicher, ob der offensichtliche Verstoß gegen die Proportional-Hazard-Annahme nicht zufällig ist. Wie @ scrotchi sagt, ist die PH-Annahme möglicherweise nicht so schlecht.
quelle
Sie sind verwirrt über die Art Ihrer Ausgabe. Diese Daten besagen: Wenn Sie ein Mann sind, leben Sie mit größerer Wahrscheinlichkeit länger als eine Frau. Frauen haben ein SCHLECHTERES Überleben als Männer. Dies spiegelt sich in der Regressionsausgabe wider, da der Effekt für MÄNNLICH ein negatives logarithmisches Gefährdungsverhältnis ist, z. B. haben Männer ein geringeres Risiko als Frauen. Zu den meisten Ereigniszeiten (wenn die Kurven "Schritt" sind) ist die männliche Überlebenskurve größer als die der weiblichen, die Ergebnisse des Cox-Modells und die Grafik stimmen sehr gut überein. Die KM-Kurven bestätigen dies ebenso wie die Ausgabe des Regressionsmodells. Das "Kreuz" ist belanglos.
KM-Kurven verhalten sich in den Schwänzen schlecht, insbesondere wenn sie sich 0% nähern und / oder sich flach verjüngen. Die Y-Achse ist der überlebende Anteil. Mit relativ wenigen, die lange in der Studie überleben, und wenigen, die zu diesem Zeitpunkt sterben, ist die Zuverlässigkeit der Schätzungen intuitiv und grafisch schrecklich. Ich stelle zum Beispiel fest, dass Ihre Kohorte sichtbar weniger Frauen als Männer enthält und dass nach 2.800 Tagen weniger als 10 Frauen in der Kohorte verbleiben, was durch die Schritte in der Überlebenskurve und das Fehlen zensierter Ereignisse belegt wird.
Interessanterweise ist die tatsächliche Überlebensdauer etwas irrelevant , da Überlebensanalysen unter Verwendung von KM-Kurven, Log-Rank-Tests und Cox-Modellen Rang- Überlebenszeiten verwenden. Ihre am längsten überlebende Frau hätte tatsächlich weitere 100 Jahre überleben können, und dies hätte keinen Einfluss auf die Analysen. Dies liegt daran, dass die Baseline-Hazard-Funktion (die in den letzten 13 Jahren keine Ereignisse beobachtet hat) davon ausgehen würde, dass in den nächsten 87 Jahren kein Todesrisiko besteht, da damals niemand gestorben ist.
Wenn Sie möchten, dass eine robuste HR korrekte 95% CIs und p-Werte dafür
robust=TRUE
erhält , geben Sie dies im Cox-PH an, um Sandwich-Standardfehler zu erhalten. In diesem Fall ist die HR eine zeitlich gemittelte HR, bei der Männer zu allen Ausfallzeiten mit Frauen verglichen werden.quelle