Bayesian Survival Analysis: Bitte schreiben Sie mir einen Prior für Kaplan Meier!

Betrachten Sie rechtszensierte Beobachtungen mit Ereignissen zu den Zeitpunkten . Die Anzahl der anfälligen Personen zum Zeitpunkt ist und die Anzahl der Ereignisse zum Zeitpunkt ist . $t_1, t_2, \dots$ $i$ $n_i$ $i$ $d_i$

Der Kaplan-Meier- oder Produktschätzer entsteht natürlich als MLE, wenn die Überlebensfunktion eine Sprungfunktion . Die Wahrscheinlichkeit ist dann und die MLE ist . $S(t) = \prod_{i : t_i < t} \alpha_i$

L (α) = \prod_{i} (1 - α_{i})^{d_{i}} α_{i}^{n_{i} - d_{i}}

$L(\alpha) = \prod_i (1-\alpha_i)^{d_i} \alpha_i^{n_i-d_i}$

{\hat{α}}_{i} = 1 - \frac{d_{i}}{n_{i}}

$\widehat\alpha_i = 1 - {d_i\over n_i}$

OK, jetzt nimm an, dass ich Bayesianer werden will. Ich brauche eine Art `` natural '' Prior, mit der ich multiplizieren werde , oder? $L(\alpha)$

Als ich die offensichtlichen Stichwörter googelte, stellte ich fest, dass der Dirichlet-Prozess ein guter Prior ist. Aber soweit ich das verstehe, liegt es auch an den Diskontinuitätspunkten ? $t_i$

Das ist sicherlich sehr interessant und ich bin gespannt darauf, davon zu lernen, aber ich würde mich mit etwas Einfacherem zufrieden geben. Ich beginne zu vermuten, dass das nicht so einfach ist, wie ich zuerst dachte, und es ist Zeit, um Ihren Rat zu bitten ...

Vielen Dank im Voraus!

PS: Ein paar Präzisierungen zu dem, was ich mir erhoffe, interessieren mich (so einfach wie möglich) Erklärungen zum Umgang mit dem Dirichlet-Prozess, aber ich denke, es sollte möglich sein, einfach ein Prior auf dem - das heißt Ein Schritt vor dem Schritt funktioniert mit Diskontinuitäten in . $\alpha_i$ $t_i$

Ich denke, dass die "globale Form" der im Vorhergehenden abgetasteten Sprungfunktionen nicht von den abhängen sollte - es sollte eine zugrunde liegende Familie kontinuierlicher Funktionen geben, die durch diese Sprungfunktionen angenähert werden. $t_i$

Ich weiß nicht, ob das unabhängig sein soll (ich bezweifle es). Wenn dies der ist, impliziert dies, dass das vorherige von abhängt , und wenn wir seine Verteilung durch dann das Produkt eines Variable durch eine unabhängige Variable ist eine Variable. Hier scheinen log- Variablen nützlich zu sein. $\alpha_i$ $\alpha_i$ $\Delta t_i = t_i - t_{i-1}$ $A(\Delta t)$ $A(\Delta_1)$ $A(\Delta_2)$ $A(\Delta_1+\Delta_2)$ $\Gamma$

Aber hier stecke ich im Grunde fest. Ich habe dies zunächst nicht eingegeben, weil ich nicht alle Antworten in diese Richtung lenken wollte. Ich würde mich besonders über Antworten mit bibliografischen Angaben freuen, um meine endgültige Entscheidung zu rechtfertigen.

bayesian survival kaplan-meier Elvis
quelle

In der MLE ist

{\hat{a}}_{i} = 1 - \frac{d_{i}}{m_{i}}

$\hat{a}_{i} = 1 - \frac{d_{i}}{m_{i}}$ , was ist

m_{i}

$m_{i}$ ? Ist das ein Tippfehler? Meinst du

n_{i}

$n_{i}$ ?

Stachyra

Ja, es ist natürlich . Ich korrigiere.

n_{i}

$n_i$

Elvis

Von diesem Slidedeck fand ich dieses Papier , dessen Autor auch diese Einführung hat . Wenn diese nicht als Quellen ausreichen, werden ihre eigenen Referenzen wahrscheinlich. Auch dieses Video über hierarchische Dirichlet-Prozesse.

Sean Easter

Beachten Sie, dass ich die grundlegenden Charakterisierungen von DP verstehe, aber ich weiß nicht, wie ich es konkret als Vorgänger verwenden soll ... Auch mit welchem Basismaß usw.

Elvis

Ist diese Wahrscheinlichkeitsfunktion einzigartig? Oder können Sie KM aus anderen Wahrscheinlichkeiten erhalten?

Wahrscheinlichkeitislogic

Antworten:

Da Ihre Wahrscheinlichkeitsfunktion ein Produkt von Funktionen ist, weisen die Daten darauf hin, dass es keinen Hinweis auf eine Korrelation zwischen ihnen gibt. Beachten Sie, dass die Variablen bereits skaliert werden, um die Zeit zu berücksichtigen. Ein längerer Zeitraum bedeutet eine größere Chance für Ereignisse, was im Allgemeinen ein größeres . $\alpha_i$ $d_i$ $d_i$

Der grundlegendste Weg, um hier "Bayesianisch" zu werden, ist die Verwendung unabhängiger gleichförmiger Prioritäten . Beachten Sie, dass daher ist dies ein richtiger Prior - daher ist auch posterior richtig. Der Posterior ist eine unabhängige Beta-Verteilung mit den Parametern . Dies kann leicht simuliert werden, um die hintere Verteilung der Überlebenskurve zu erzeugen, beispielsweise unter Verwendung der Funktion in R. $p (\alpha_i)=1$ $0 <\alpha_i <1$ $p (\alpha_i)\sim beta (n_i-d_i+1, d_i+1)$ rbeta ()

Ich denke, das kommt zu Ihrer Hauptfrage nach einer "einfacheren" Methode. Nachfolgend sind nur die Anfänge einer Idee zur Erstellung eines besseren Modells aufgeführt, das die flexible KM-Form für die Überlebensfunktion beibehält.

Ich denke, das Hauptproblem mit der KM-Kurve liegt in der Überlebensfunktion und nicht in der vorherigen. Warum sollten die Werte beispielsweise den beobachteten Zeitpunkten entsprechen? Wäre es nicht sinnvoller, sie an Stellen zu platzieren, die auf der Grundlage des tatsächlichen Prozesses sinnvollen Ereigniszeiten entsprechen? Wenn die beobachteten Zeitpunkte zu weit auseinander liegen, ist die KM-Kurve "zu glatt". Wenn sie zu nahe sind, ist die KM-Kurve "zu rau" und weist möglicherweise abrupte Änderungen auf. Eine Möglichkeit, mit dem "zu rauen" Problem umzugehen, besteht darin, ein korreliertes Vorzeichen auf so dass . Der Effekt dieses Vorgängers besteht darin, nahegelegene Parameter enger zusammenzuziehen. Sie könnten dies in der "log-odds" verwenden $t_i$ $\alpha$ $\alpha_i\approx \alpha_{i+1}$ $\eta_i=\log\left (\frac {\alpha_i}{1-\alpha_i}\right)$ $\eta$ $-\tau(\eta_i -\eta_{i-1})^2$ $n_i, d_i$ $i$ $( t_0,t_1)$ $(t_{00}, t_{01}, t_{02}, t_{10})$ $n_{02}, n_{10}, d_{01}, d_{02}, d_{10}$ $n_1=n_{01}$ $d_1=d_{01}+d_{02}+d_{10}$

Hoffe, das gibt Ihnen einen Anfang.

Wahrscheinlichkeitslogik
quelle

α_{i}

$\alpha_i$

Für Leser, die mit dem Problem konfrontiert sind, nach Bayesian zu gehen, um die Überlebensfunktionen zu schätzen, die die richtige Zensur akzeptieren, würde ich den nichtparametrischen Bayesian-Ansatz empfehlen, der von F. Mangili, A. Benavoli et al. Die einzige vorherige Spezifikation ist ein Parameter (Präzision oder Stärke). Es wird vermieden, dass der Dirichlet-Prozess angegeben werden muss, wenn keine vorherigen Informationen vorliegen. Die Autoren schlagen vor (1) - einen robusten Schätzer der Überlebenskurven und ihrer glaubwürdigen Intervalle für die Überlebenswahrscheinlichkeit (2) - einen Test in Bezug auf die Überlebensdifferenz von Individuen aus 2 unabhängigen Populationen, der verschiedene Vorteile gegenüber dem klassischen Log-Rank-Test bietet oder andere nichtparametrische Tests. Siehe das R-Paket IDPsurvival und diese Referenz: Zuverlässige Überlebensanalyse basierend auf dem Dirichlet-Prozess. F. Mangili et al. Biometrical Journal. 2014.

Pascal
quelle