Modell für die Behandlung von Redundanzen mit zufälligen Effekten

9

Ich versuche, mit einer Time-to-Event-Analyse unter Verwendung wiederholter binärer Ergebnisse umzugehen. Angenommen, die Zeit bis zum Ereignis wird in Tagen gemessen, aber im Moment diskretisieren wir die Zeit auf Wochen. Ich möchte einen Kaplan-Meier-Schätzer mit wiederholten binären Ergebnissen approximieren (aber Kovariaten berücksichtigen). Dies scheint ein Umweg zu sein, aber ich untersuche, wie sich dies auf ordinale Ergebnisse und wiederkehrende Ereignisse erstreckt.

Wenn Sie eine binäre Sequenz erstellen, die für jemanden, der nach 3 Wochen zensiert wurde, wie 000 aussieht, 0000 für jemanden, der bei 4 W zensiert wurde, und 0000111111111111 .... für ein Subjekt, das bei 5 W versagt hat (die Einsen erstrecken sich bis zu dem Punkt, an dem das letzte Subjekt war Wenn Sie wochenspezifische Anteile von 1s berechnen, können Sie gewöhnliche kumulative Inzidenzen erhalten (bis Sie zu variablen Zensurzeiten kommen, bei denen dies nur annähernd den kumulativen Inzidenzschätzungen nach Kaplan-Meier entspricht).

Ich kann die wiederholten binären Beobachtungen mit einem binären Logistikmodell unter Verwendung von GEE anpassen, anstatt die Zeit wie oben diskret zu machen, sondern stattdessen einen Spline in der Zeit zu verwenden. Der Cluster-Sandwich-Kovarianzschätzer funktioniert recht gut. Ich möchte jedoch mithilfe eines Modells mit gemischten Effekten eine genauere Schlussfolgerung ziehen. Das Problem ist, dass die Einsen nach der ersten 1 redundant sind. Kennt jemand eine Möglichkeit, zufällige Effekte oder ein Modell anzugeben, das die Redundanzen berücksichtigt, damit Standardfehler nicht entleert werden?

Beachten Sie, dass sich dieses Setup von dem von Efron unterscheidet, da er logistische Modelle verwendet hat, um bedingte Wahrscheinlichkeiten in Risikosätzen zu schätzen. Ich schätze bedingungslose Wahrscheinlichkeiten.

Frank Harrell
quelle

Antworten:

3

Soweit ich sowohl mit dem GEE als auch mit einem gemischten Modell für wiederholte binäre Beobachtungen sehen kann, haben Sie das Problem, dass das Modell eine positive Wahrscheinlichkeit für eine '0' zuweist, nachdem die erste '1' beobachtet wurde.

Da Sie Schätzungen aus einer logistischen Regression mit gemischten Effekten erhalten möchten, die dieselbe Interpretation wie in der GEE haben ( weitere Informationen finden Sie hier ), können Sie das Modell in jedem Fall mithilfe der mixed_model()Funktion aus dem GLMMadaptive- Paket anpassen und dann verwenden marginal_coefs(). Ein Beispiel finden Sie hier .

Dimitris Rizopoulos
quelle
1
Danke Dimitris. Für meinen Fall mit redundanten Einsen (um die mittlere Funktion richtig zu machen) brauche ich wahrscheinlich ein modifiziertes Modell oder ein seltsames Setup für zufällige Effekte. Das GLMMadaptivePaket sieht für das allgemeinere Setup großartig aus.
Frank Harrell
2

Ein paar Gedanken dazu:

  1. Es scheint, dass ein Modell mit gemischten Effekten grundsätzlich ein "bedingtes" Wahrscheinlichkeitsmodell ist, dh wie hoch ist die Wahrscheinlichkeit eines Ereignisses für ein Subjekt, das für dieses Ereignis gefährdet ist.

  2. Wir wissen, dass die Wahrscheinlichkeit einer '1' nach der ersten '1' eins ist. Somit gibt es keine zusätzlichen Informationen in den nachfolgenden '1'-Werten.

  3. Da nachfolgende '1'-Werte keine zusätzlichen Informationen enthalten, sollten sie keinen Einfluss auf die Wahrscheinlichkeitsfunktion haben und daher keinen Einfluss auf Standardfehler von Wahrscheinlichkeitsschätzern oder die Schätzungen selbst haben. In der Tat würde es keine Auswirkung nachfolgender '1'-Werte geben, wenn p (y =' 1 '| x) = 1 ist, unabhängig von den Modellparameterwerten, wie es sein sollte.

  4. Möglicherweise können wir dieses Verhalten erzwingen (dh p (y = '1' | x) = 1) und die gewünschte mittlere Funktion beibehalten, indem wir dem Modell, das nachfolgende markiert, eine Indikatorkovariate hinzufügen und seinen Koeffizienten erzwingen sehr groß sein, so dass effektiv p (y = '1' | x) = 1 ist.

  5. Wie Sie bereits erwähnt haben, gibt es möglicherweise auch eine Möglichkeit, die erste '1' und nachfolgende Antworten zu einer 100% igen Korrelation zu zwingen. In einem Binomialmodell ist dies jedoch dasselbe wie p (y = '1' | x) = 1 für nachfolgende Antworten.

Matt Shotwell
quelle
1
Danke Matt. Wenn ich kein vollständiges Modell haben wollte, aber mit dem Schätzen von Gleichungen zufrieden war, müssen Sie die doppelten Antworten zur Bewertungsfunktion hinzufügen, um die mittlere Funktion richtig zu machen, aber nicht zur Informationsfunktion hinzufügen. Ich glaube nicht, dass ich eine Indikatorkovariate hinzufügen kann, da dies beispielsweise vom Behandlungseffekt abhängt. Ich halte das Mischeffektmodell eher für ein bedingungsloses Modell. Wenn das Ereignis kein absorbierender Zustand ist, modellieren Sie Randeffekte zeitabhängig.
Frank Harrell
1

Ich bin mir nicht ganz sicher, was Sie versuchen, aber können Sie ein gepooltes logistisches Regressionsmodell anpassen ( https://www.ncbi.nlm.nih.gov/pubmed/2281238 )? In diesem Fall würden Sie nur 1 während des Intervalls des Terminalereignisses einschließen - es würde sich nicht wiederholen, nachdem das Ereignis aufgetreten ist. Sie würden die Zeit auf flexible Weise in das Modell aufnehmen (z. B. mithilfe von Splines erweitert).

Bryan Shepherd
quelle
1
Hey Bryan - Ich mag gepoolte logistische Regression sehr und habe sie oft verwendet. Wenn Sie jedoch die Beobachtungen eines Subjekts am Terminalereignis beenden und andere Subjekte über diesen Punkt hinaus ohne Ereignis verfolgen lassen, wird die mittlere Funktion (P (Ereignis zum Zeitpunkt t)) falsch angegeben. Ich möchte zumindest in besonderen Fällen kumulative Inzidenzschätzungen für die mittlere Funktion in der Nähe von Kaplan-Meier erhalten.
Frank Harrell