Wie geht Rs coxph () genau mit wiederholten Messungen um?

10

Kontext

Ich versuche zu verstehen, wie Rs coxph () wiederholte Einträge für Probanden (oder Patienten / Kunden, wenn Sie dies bevorzugen) akzeptiert und verarbeitet. Einige nennen dieses Langformat, andere nennen es "wiederholte Maßnahmen".

Siehe zum Beispiel den Datensatz, der die ID-Spalte im Abschnitt Antworten enthält, unter:

Beste Pakete für Cox-Modelle mit zeitlich variierenden Kovariaten

Nehmen Sie außerdem an, dass die Kovariaten durchgehend zeitlich variieren und es genau eine Zensurvariable (dh eine Ereignisvariable) gibt, die binär ist.

Fragen

1) Wenn in der Antwort des obigen Links ID im Aufruf von coxph () nicht als Parameter angegeben wird, sollten die Ergebnisse mit der Einbeziehung von Cluster (ID) als Parameter in coxph () übereinstimmen?

Ich habe versucht, nach Dokumentation zu suchen, aber Folgendes scheint (1) nicht eindeutig zu adressieren: https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html

2) Wenn die Antwort auf (1) "Nein" lautet, warum dann (mathematisch)? Es scheint, dass cluster () in coxph () nach Korrelationen zwischen Subjekten gemäß Unterabschnitt 'cluster' auf Seite 22 sucht. 20 at

https://cran.r-project.org/web/packages/survival/survival.pdf

3) Vage Frage: Wie vergleicht sich coxph () mit wiederholten Messungen mit Rs Frailtypack-Regressionsmethoden?

Nachträge

Die folgenden Hinweise zur Verwendung von Cluster (ID):

Gibt es eine Version des Logrank-Tests mit wiederholten Maßnahmen?

ebenso wie:

https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html

GEE-Ansatz: Fügen Sie der Modellanweisung in coxph "+ cluster (subject)" hinzu. Ansatz für gemischte Modelle: Fügen Sie der Modellanweisung in coxme "+ (1 | subject)" hinzu.

Danke im Voraus!

Quetzalcoatl
quelle

Antworten:

11
  1. Durch das Einschließen werden cluster(ID)die Punktschätzungen der Parameter nicht geändert. Es ändert jedoch die Art und Weise, wie die Standardfehler berechnet werden.

    Weitere Einzelheiten finden Sie in Therneau & Grambschs Buch Extending the Cox Model , Kapitel 8.2. Beachten Sie, dass sie in ihrem Beispiel method = "breslow"als Korrektur für Bindungen verwenden, aber auch mit der Standardeinstellung ( method = "efron") eine ähnliche Berechnung für die Se verwendet wird und in der Zusammenfassung als "robustes Se" angezeigt wird.

  2. Wenn Cluster (ID) verwendet wird, wird eine "robuste" Schätzung von Standardfehlern auferlegt und eine mögliche Abhängigkeit zwischen Probanden gemessen (z. B. durch Standardfehler und Varianzbewertungen). Wenn kein Cluster (ID) verwendet wird, bedeutet dies für jede Beobachtung eine Unabhängigkeit, und es werden mehr "Informationen" in den Daten angenommen. In technischer Hinsicht ändert sich die Bewertungsfunktion für die Parameter nicht, die Varianz dieser Bewertung jedoch. Ein intuitiveres Argument ist, dass 100 Beobachtungen an 100 Personen mehr Informationen liefern als 100 Beobachtungen an 10 Personen (oder Clustern).

  3. In der Tat vage. Kurz gesagt, +frailty(ID)in coxph()Anfällen Standard Gebrechlichkeit Modelle mit Gamma- oder log-normal Zufallseffekten und mit nicht-parametrisches Ausgangswert hazard / Intensität. frailtypackVerwendet die parametrische Grundlinie (auch flexible Versionen mit Splines oder stückweise konstanten Funktionen) und passt auch zu komplizierteren Modellen wie korrelierter Gebrechlichkeit, verschachtelter Gebrechlichkeit usw.

Schließlich +cluster()ist etwas im Sinne von GEE, dass Sie die Bewertungsgleichungen aus einer Wahrscheinlichkeit mit unabhängigen Beobachtungen nehmen und einen anderen "robusten" Schätzer für die Standardfehler verwenden.

edit: Danke @Ivan für die Vorschläge zur Klarheit des Beitrags.

Theodor
quelle
Vielen Dank. Zu (2): Kann "Dies liegt daran, dass wenn Sie (fälschlicherweise) annehmen ..." durch "Wenn Sie beim Aufruf von coxph () keinen Cluster (ID) verwenden, wird fälschlicherweise angenommen ..." ersetzt.
Quetzalcoatl
Ich meinte: Wenn die Beobachtungen gruppiert sind, können sie unabhängig sein oder auch nicht. Die Annahme, dass sie unabhängig sind (dh Cluster (ID) nicht verwenden), ist in diesem Fall mit ziemlicher Sicherheit falsch, aber es gibt keine Ahnung, dass sie dies vorher wissen
Theodor,
(2) kann wie folgt umformuliert werden: Wenn Cluster (ID) verwendet wird, wird eine "robuste" Schätzung von Standardfehlern auferlegt und eine mögliche Abhängigkeit zwischen Subjekten gemessen (z. B. durch Standardfehler und Varianzbewertungen). Wenn kein Cluster (ID) verwendet wird, bedeutet dies für jede Beobachtung eine Unabhängigkeit, und es werden mehr "Informationen" in den Daten angenommen.
Quetzalcoatl
Der Referenzlink, den Sie in (1) angegeben haben, sollte lauten: springer.com/us/book/9780387987842 (vorausgesetzt, Sie zitieren das Buch von Therneau und Grambsch)
Quetzalcoatl
Beachten Sie auch: Wie in Therneaus und Grambschs Buch erläutert, ist die Antwort in (1) oben richtig, weil coxph () die Breslow-Methode als Standard für Bindungen verwendet.
Quetzalcoatl
1

Hier ist eine Antwort von einer survivalPaketvignette, die ich hilfreich fand - sie ist in der ersten Antwort auf die erste Frage verlinkt, mit der Sie verlinkt haben:

Beste Pakete für Cox-Modelle mit zeitlich variierenden Kovariaten

Sie beziehen sich auf das Einrichten von Langformdaten oder auf Daten mit wiederholten Einträgen für Probanden.

Eine häufig gestellte Frage bei diesem Datenaufbau ist, ob wir uns um korrelierte Daten kümmern müssen, da ein bestimmtes Subjekt mehrere Beobachtungen hat. Die Antwort ist nein, wir nicht. Der Grund ist, dass diese Darstellung einfach ein Programmiertrick ist. Die Wahrscheinlichkeitsgleichungen verwenden zu jedem Zeitpunkt nur eine Kopie eines Subjekts. Das Programm wählt zu jedem Zeitpunkt die richtige Datenzeile aus. Es gibt zwei Ausnahmen von dieser Regel:

  • Wenn Subjekte mehrere Ereignisse haben, werden die Zeilen für die Ereignisse innerhalb des Subjekts korreliert und eine Clustervarianz ist erforderlich.
  • Wenn ein Motiv in überlappenden Intervallen angezeigt wird. Dies ist jedoch fast immer ein Datenfehler, da es sich um zwei Kopien des Subjekts handelt, die gleichzeitig in derselben Schicht vorhanden sind, z. B. könnte sie sich auf einer Party treffen.

Das Beispiel, das sie geben, ist

fit <- coxph(Surv(time1, time2, status) ~ age + creatinine, data=mydata)

Wenn Sie zweimal (Anfang und Ende des Zeitraums) Survanstelle von einem coxph()angeben, wird der Rest ermittelt.

BLT
quelle
Wenn ich etwas nicht falsch verstanden habe, halte ich diesen Kommentar für irreführend? Wir müssen uns um korrelierte Daten kümmern, wenn wir genaue Schätzungen der Varianz erhalten möchten. Warum ändert das Hinzufügen eines + Cluster (ID) -Terms die geschätzten Varianzterme?
AP30