Grundlegende Fragen zur zeitdiskreten Überlebensanalyse

18

Ich versuche, mithilfe eines logistischen Regressionsmodells eine diskrete Zeitüberlebensanalyse durchzuführen, und bin nicht sicher, ob ich den Prozess vollständig verstehe. Ich würde mich sehr über Unterstützung bei ein paar grundlegenden Fragen freuen.

Hier ist der Aufbau:

Ich sehe die Mitgliedschaft in einer Gruppe innerhalb eines Zeitfensters von fünf Jahren. Jedes Mitglied hat eine monatliche Mitgliederliste für jeden Monat, in dem es Mitglied der Gruppe ist. Ich denke an alle Mitglieder, deren Mitgliedschaft während des Fünfjahresfensters begonnen hat (um "Linkszensur" -Probleme mit Mitgliedern zu vermeiden, die früher beigetreten sind). Jeder Datensatz wird nach der Zeit indexiert, wobei die erste Zeit der Monat ist, zu dem das Mitglied beigetreten ist. Ein Mitglied, das zweieinhalb Jahre bleibt, hat dreißig monatliche Aufzeichnungen, die von eins bis dreißig nummeriert sind. Jeder Datensatz erhält außerdem eine binäre Variable, die für den letzten Monat der Mitgliedschaft den Wert Eins und ansonsten den Wert Null hat. Der Wert Eins für die Binärvariable kennzeichnet das Ereignis, dass das Mitglied die Gruppe verlassen hat. Für jedes Mitglied, dessen Mitgliedschaft über das Analysefenster von fünf Jahren hinausgeht,

Das logistische Regressionsmodell wurde erstellt, um die Werte der binären Ereignisvariablen vorherzusagen. So weit, ist es gut. Eine der typischen Methoden zur Bewertung eines binären Vorhersagemodells ist die Messung des Auftriebs an einer Holdout-Stichprobe. Für das logistische Regressionsmodell, das ich zur Vorhersage des Ereignisses zum Ende der Mitgliedschaft erstellt habe, habe ich den Lift für einen Holdout-Datensatz mit einem Verhältnis von Nichtereignissen zu Ereignissen von fünf zu eins berechnet. Ich habe die vorhergesagten Werte in Dezile eingeteilt. Das Dezil mit den höchsten vorhergesagten Werten enthält siebzig Prozent Einsen, eine Steigerung von mehr als vier. Die ersten beiden Dezile enthalten zusammen fünfundsechzig Prozent aller im Holdout. In bestimmten Zusammenhängen würde dies als ein recht anständiges Vorhersagemodell angesehen, aber ich frage mich, ob es gut genug ist, um eine Überlebensanalyse durchzuführen.

Sei die Gefahrenfunktion für Individuum im Monat und sei die Wahrscheinlichkeit, dass Individuum den Monat überlebt .j k S [ j , k ] j kh[j,k]jkS[j,k]jk

Hier sind meine grundlegenden Fragen:

  1. Ist die diskrete Gefahrenfunktion die bedingte Wahrscheinlichkeit des Nichtüberlebens (Verlassen der Gruppe) in jedem Monat?h[j,k]

  2. Sind die vorhergesagten Werte aus dem logistischen Regressionsmodell Schätzungen der Gefährdungsfunktion? (dh ist gleich dem vom Modell vorhergesagten Wert für das Individuum im Monat , oder muss etwas mehr getan werden, um Schätzungen der Gefährdungsfunktion zu erhalten?)j kh[j,k]jk

  3. Ist die Überlebenswahrscheinlichkeit bis zum Monat q für das Individuum gleich dem Produkt aus Eins minus der Gefährdungsfunktion vom ersten Monat bis zum Monat , dh ist ?q S [ j , q ] = ( 1 - h [ j , 1 ] ) ( 1 - h [ j , 2 ] ) ( 1 - h [ j , q ] )jqS[j,q]=(1h[j,1])(1h[j,2])(1h[j,q])

  4. Ist der Mittelwert von über alle Individuen für jeden Zeitpunkt eine vernünftige Schätzung der mittleren Überlebenswahrscheinlichkeit der Gesamtbevölkerung?j kS[j,k]jk

  5. Sollte eine grafische Darstellung der durchschnittlichen Überlebenswahrscheinlichkeit der Gesamtbevölkerung pro Monat dem monatlichen Kaplan-Meier-Diagramm ähneln?

Wenn die Antwort auf eine dieser Fragen Nein lautet, habe ich ein schwerwiegendes Missverständnis und könnte wirklich Hilfe / Erklärung gebrauchen. Gibt es auch eine Faustregel dafür, wie gut das binäre Vorhersagemodell sein muss, um ein genaues Überlebensprofil zu erstellen?

Talbot Katz
quelle
Die vielleicht dies können Sie mit einigen Ihrer Fragen helfen
jujae

Antworten:

7

Angenommen, ist der größte Wert von (dh der größte in Ihren Daten beobachtete Monat / Zeitraum).Kk

  1. Hier ist die Hazard-Funktion mit einer vollständig diskreten Parametrisierung der Zeit und mit einem Vektor von Parametern einem Vektor von Konditionierungsvariablen : . Die Hazard-Funktion kann auch um alternative Parametrisierungen der Zeit (z. B. um oder Funktionen davon als Variable im Modell) oder um einen Hybrid aus beidem aufgebaut sein.BXhj,k=eαk+BX1+eαk+BXk

    Die Baseline Logit Hazard-Funktion beschreibt die Wahrscheinlichkeit des Eintretens eines Ereignisses in der Zeit , abhängig davon, ob es bis zur Zeit überlebt hat . Das Hinzufügen von Prädiktoren ( ) zum Modell schränkt diese Konditionalität weiter ein.kk XkX

  2. Nein, logistische Regressionsschätzungen (z. B. , , , ) sind nicht die Gefährdungsfunktionen selbst. Die logistischen Regressionsmodelle: , und Sie müssen die Anti-Logit-Transformation in (1) oben ausführen, um die Gefahrenschätzungen zu erhalten.α^1 ... α K B (hj,k)=αk+BXα^KB^(hj,k)=αk+BX

  3. Ja. Obwohl ich es notieren würde . Die Überlebensfunktion ist die Wahrscheinlichkeit, dass das Ereignis zum Zeitpunkt nicht , und kann natürlich auch auf konditioniert werden .S^j,q=ich=1q(1-hj,ich)kXkX

  4. Dies ist eine subtile Frage, nicht sicher, ob ich Antworten habe. Ich habe jedoch Fragen. :) Die Stichprobengröße nimmt mit der Zeit aufgrund der richtigen Zensur und aufgrund des Ereignisses ab. Würden Sie dies bei der Berechnung der mittleren Überlebenszeit berücksichtigen? Wie? Was meinst du mit "der Bevölkerung"? Auf welche Bevölkerungsgruppe werden die Personen eingestellt, für die Sie das Studium verallgemeinern möchten? Oder meinst du ein statistisches "Überbevölkerungs" -Konzept? Inferenz ist eine große Herausforderung in diesen Modellen, da wir s und ihre Standardfehler schätzen , aber Delta-Methoden-Backflips durchführen müssen, um Standardfehler für und (from meine eigene Arbeit) gültige Standardfehler für ableitenβh j , k S j , k S j , kh^j,kS^j,kFunktioniert nur auf Papier (Ich kann keine korrekten CI-Coverages für in bedingten Modellen erhalten).S^j,k

  5. Sie können Kaplan-Meier-ähnliche Stufenfunktionsgraphen verwenden und Sie können auch gerade Liniengraphen verwenden (dh die Punkte zwischen Zeiträumen mit einer Linie verbinden). Sie sollten den letzteren Fall nur dann verwenden, wenn das Konzept der "diskreten Zeit" selbst die Möglichkeit von unterteilten Zeiträumen zulässt. Sie können auch Schätzungen von plotten / kommunizieren kumulative Inzidenz (die ... mindestens Epidemiologen wird oft als „kumulative Inzidenz“ auf diese Weise definieren, wird der Begriff unterschiedlich Modelle in konkurrierenden Risiken verwendete Begriff. Aufnahme kann auch hier verwendet werden.).1-Sj,k

Alexis
quelle
Ich denke, in Frage 2 fragt OP nach dem vorhergesagten Wert aus dem logistischen Modell, nicht nach den Schätzungen der Regressionskoeffizienten. Dies könnte relevant sein
jujae
@jujae In meiner Antwort auf # 2 habe ich die logistische Funktion explizit angegeben und OP auf die Verwendung des Anti-Logits hingewiesen, um Logit-Parameterschätzwerte in umzuwandeln , sodass ich Ihren Kommentar nicht verstehe. h^(t)
Alexis
Ist der prognostizierte Wert eines logistischen Modells nicht die Erfolgswahrscheinlichkeit des binären RV, sodass kein Ant-Logit erforderlich ist? Das ist ? ypred=exp(βTx)/(1+exp(βTx))
Jujae
Zurück zu der ursprünglichen Frage 2 fragte das OP: "Sind die vorhergesagten Werte aus dem logistischen Regressionsmodell Schätzungen der Gefährdungsfunktion?" Ich würde ja sagen (wenn mein Verständnis des vorhergesagten Werts korrekt ist). Und Sie sagen nein und argumentieren, dass die geschätzten Koeffizienten nicht mit der Gefahrenabschätzung übereinstimmen. Ich bin mit Ihrer Aussage einverstanden, sie sind korrekt, aber es ist nicht das, was OP von meinem Verständnis verlangt hat.
Jujae
Und für Frage 4 denke ich, dass OP nach der Überlebenswahrscheinlichkeit in jedem Intervall fragt und der Durchschnitt des geschätzten in der Tat ein vernünftiger Schätzer für . In Ihrer Antwort beziehen Sie sich zunächst auf die mittlere Überlebenszeit, die mich als Leser verwirrt. Mittlerweile glaube ich auch, dass der Schätzer, den wir diskutieren, im Wesentlichen Kaplan-meier ist, und (zum Beispiel) Greenwoods Varianzschätzer für KM kann direkt verwendet werden, und ich kann die Schwierigkeiten, die Sie oben bei der Berechnung der Varianzen angegeben haben, nicht einschätzen. S j ( k ) S ( k )kS^j(k)S(k)
Jujae