Ich versuche, mit einer Time-to-Event-Analyse unter Verwendung wiederholter binärer Ergebnisse umzugehen. Angenommen, die Zeit bis zum Ereignis wird in Tagen gemessen, aber im Moment diskretisieren wir die Zeit auf Wochen. Ich möchte einen Kaplan-Meier-Schätzer mit wiederholten binären Ergebnissen approximieren (aber Kovariaten berücksichtigen). Dies scheint ein Umweg zu sein, aber ich untersuche, wie sich dies auf ordinale Ergebnisse und wiederkehrende Ereignisse erstreckt.
Wenn Sie eine binäre Sequenz erstellen, die für jemanden, der nach 3 Wochen zensiert wurde, wie 000 aussieht, 0000 für jemanden, der bei 4 W zensiert wurde, und 0000111111111111 .... für ein Subjekt, das bei 5 W versagt hat (die Einsen erstrecken sich bis zu dem Punkt, an dem das letzte Subjekt war Wenn Sie wochenspezifische Anteile von 1s berechnen, können Sie gewöhnliche kumulative Inzidenzen erhalten (bis Sie zu variablen Zensurzeiten kommen, bei denen dies nur annähernd den kumulativen Inzidenzschätzungen nach Kaplan-Meier entspricht).
Ich kann die wiederholten binären Beobachtungen mit einem binären Logistikmodell unter Verwendung von GEE anpassen, anstatt die Zeit wie oben diskret zu machen, sondern stattdessen einen Spline in der Zeit zu verwenden. Der Cluster-Sandwich-Kovarianzschätzer funktioniert recht gut. Ich möchte jedoch mithilfe eines Modells mit gemischten Effekten eine genauere Schlussfolgerung ziehen. Das Problem ist, dass die Einsen nach der ersten 1 redundant sind. Kennt jemand eine Möglichkeit, zufällige Effekte oder ein Modell anzugeben, das die Redundanzen berücksichtigt, damit Standardfehler nicht entleert werden?
Beachten Sie, dass sich dieses Setup von dem von Efron unterscheidet, da er logistische Modelle verwendet hat, um bedingte Wahrscheinlichkeiten in Risikosätzen zu schätzen. Ich schätze bedingungslose Wahrscheinlichkeiten.
quelle
GLMMadaptive
Paket sieht für das allgemeinere Setup großartig aus.Ein paar Gedanken dazu:
Es scheint, dass ein Modell mit gemischten Effekten grundsätzlich ein "bedingtes" Wahrscheinlichkeitsmodell ist, dh wie hoch ist die Wahrscheinlichkeit eines Ereignisses für ein Subjekt, das für dieses Ereignis gefährdet ist.
Wir wissen, dass die Wahrscheinlichkeit einer '1' nach der ersten '1' eins ist. Somit gibt es keine zusätzlichen Informationen in den nachfolgenden '1'-Werten.
Da nachfolgende '1'-Werte keine zusätzlichen Informationen enthalten, sollten sie keinen Einfluss auf die Wahrscheinlichkeitsfunktion haben und daher keinen Einfluss auf Standardfehler von Wahrscheinlichkeitsschätzern oder die Schätzungen selbst haben. In der Tat würde es keine Auswirkung nachfolgender '1'-Werte geben, wenn p (y =' 1 '| x) = 1 ist, unabhängig von den Modellparameterwerten, wie es sein sollte.
Möglicherweise können wir dieses Verhalten erzwingen (dh p (y = '1' | x) = 1) und die gewünschte mittlere Funktion beibehalten, indem wir dem Modell, das nachfolgende markiert, eine Indikatorkovariate hinzufügen und seinen Koeffizienten erzwingen sehr groß sein, so dass effektiv p (y = '1' | x) = 1 ist.
Wie Sie bereits erwähnt haben, gibt es möglicherweise auch eine Möglichkeit, die erste '1' und nachfolgende Antworten zu einer 100% igen Korrelation zu zwingen. In einem Binomialmodell ist dies jedoch dasselbe wie p (y = '1' | x) = 1 für nachfolgende Antworten.
quelle
Ich bin mir nicht ganz sicher, was Sie versuchen, aber können Sie ein gepooltes logistisches Regressionsmodell anpassen ( https://www.ncbi.nlm.nih.gov/pubmed/2281238 )? In diesem Fall würden Sie nur 1 während des Intervalls des Terminalereignisses einschließen - es würde sich nicht wiederholen, nachdem das Ereignis aufgetreten ist. Sie würden die Zeit auf flexible Weise in das Modell aufnehmen (z. B. mithilfe von Splines erweitert).
quelle