Ich habe etwas über das Cox-Proportional-Hazard-Modell gelernt. Ich habe viel Erfahrung mit der Anpassung von logistischen Regressionsmodellen, und um die Intuition zu verbessern, habe ich Modelle, die mit coxph
dem R "Survival" passen, glm
mit logistischen Regressionsmodellen verglichen, die mit dem R "Survival" passen family="binomial"
.
Wenn ich den Code ausführe:
library(survival)
s = Surv(time=lung$time, event=lung$status - 1)
summary(coxph(s ~ age, data=lung))
summary(glm(status-1 ~ age, data=lung, family="binomial"))
Ich erhalte p-Werte für das Alter von 0,0419 bzw. 0,0254. Ebenso, wenn ich Sex als Prädiktor benutze, mit oder ohne Alter.
Ich finde das rätselhaft, weil ich denke, dass die Berücksichtigung der verstrichenen Zeit beim Anpassen des Modells mehr statistische Aussagekraft liefert als nur die Behandlung des Todes als binäres Ergebnis, während die p-Werte mit einem Wert übereinstimmen, der weniger statistische Aussagekraft hat. Was geht hier vor sich?
Antworten:
Das logistische Regressionsmodell geht davon aus, dass es sich bei der Antwort um einen Bernoulli-Versuch handelt (oder allgemeiner um einen Binomialversuch, aber der Einfachheit halber behalten wir ihn bei 0-1). Ein Überlebensmodell geht davon aus, dass die Antwort in der Regel eine Zeit bis zum Ereignis ist (es gibt wiederum Verallgemeinerungen davon, die wir überspringen werden). Eine andere Möglichkeit ist, dass Einheiten eine Reihe von Werten durchlaufen , bis ein Ereignis eintritt. Es ist nicht so, dass eine Münze an jedem Punkt diskret geworfen wird. (Das könnte natürlich passieren, aber dann brauchen Sie ein Modell für wiederholte Maßnahmen - vielleicht ein GLMM.)
Ihr logistisches Regressionsmodell nimmt jeden Todesfall als Münzwurf auf, der in diesem Alter stattgefunden hat und einen Endpunkt erreicht hat. Ebenso betrachtet es jedes zensierte Datum als einen einzelnen Münzwurf, der im angegebenen Alter stattfand und auftauchte. Das Problem hierbei ist, dass dies nicht mit den tatsächlichen Daten übereinstimmt.
Hier sind einige Diagramme der Daten und die Ausgabe der Modelle. (Beachten Sie, dass ich die Vorhersagen aus dem logistischen Regressionsmodell in die Vorhersage der Lebendigkeit umlege, sodass die Linie mit dem Diagramm der bedingten Dichte übereinstimmt.)
Es kann hilfreich sein, eine Situation zu betrachten, in der die Daten für eine Überlebensanalyse oder eine logistische Regression geeignet waren. Stellen Sie sich eine Studie vor, um die Wahrscheinlichkeit zu bestimmen, dass ein Patient innerhalb von 30 Tagen nach seiner Entlassung nach einem neuen Protokoll oder nach einem neuen Versorgungsstandard wieder in das Krankenhaus eingeliefert wird. Alle Patienten werden jedoch bis zur Rückübernahme nachverfolgt, und es gibt keine Zensur (dies ist nicht besonders realistisch), sodass der genaue Zeitpunkt der Rückübernahme mithilfe einer Überlebensanalyse (hier ein Cox-proportionales Gefährdungsmodell) analysiert werden könnte. Um diese Situation zu simulieren, verwende ich Exponentialverteilungen mit Raten von 0,5 und 1 und verwende den Wert 1 als Grenzwert für 30 Tage:
In diesem Fall sehen wir , dass der p-Wert aus dem logistischen Regressionsmodell (
0.163
) war höher als der p-Wert aus einer Überlebensanalyse (0.005
). Um diese Idee weiter zu untersuchen, können wir die Simulation erweitern, um die Leistung einer logistischen Regressionsanalyse im Vergleich zu einer Überlebensanalyse und die Wahrscheinlichkeit, dass der p-Wert aus dem Cox-Modell niedriger als der p-Wert aus der logistischen Regression ist, abzuschätzen . Ich werde auch 1,4 als Schwellenwert verwenden, damit ich die logistische Regression nicht durch einen suboptimalen Cutoff benachteilige:Die Potenz der logistischen Regression ist also niedriger (ca. 75%) als die Überlebensanalyse (ca. 93%), und 90% der p-Werte aus der Überlebensanalyse waren niedriger als die entsprechenden p-Werte aus der logistischen Regression. Wenn Sie die Verzögerungszeiten berücksichtigen, erhalten Sie, anstatt nur einen Schwellenwert zu unterschreiten oder zu überschreiten, mehr statistische Leistung, als Sie gedacht hatten.
quelle