ML-Schätzung der Exponentialverteilung (mit zensierten Daten)

9

In der Überlebensanalyse nehmen Sie an, dass die Überlebenszeit eines rv exponentiell verteilt ist. Wenn man bedenkt, dass ich jetzt "Ergebnisse" von iid rvs . Nur ein Teil dieser Ergebnisse ist tatsächlich "vollständig verwirklicht", dh die verbleibenden Beobachtungen sind noch "lebendig".x 1 , , x n X iX.ichx1,,xnX.ich

Wenn ich eine ML-Schätzung für den Ratenparameter der Verteilung durchführen wollte, wie kann ich die nicht realisierten Beobachtungen auf kohärente / angemessene Weise nutzen? Ich glaube, sie enthalten noch nützliche Informationen für die Schätzung.λ

Könnte mich jemand zur Literatur zu diesem Thema führen? Ich bin sicher, dass es existiert. Ich habe jedoch Probleme, gute Keywords / Suchbegriffe für das Thema zu finden.

Guter Kerl Mike
quelle
3
Sie sagen also, dass von den n Zufallsvariablen, von denen Sie eine Messung haben, n1<n Beobachtungen "finalisierte" Lebenslängen darstellen (weil die zugehörigen Zufallsvariablen zum Messzeitpunkt "tot" waren), während der Rest n2<n Beobachtungen sind Überlebenslängen von Zufallsvariablen, die zum Messzeitpunkt "noch am Leben" waren? ( n1+n2=n )
Alecos Papadopoulos
1
Dies ist ein abgeschnittenes Modell, bei dem die "lebendigen" Zufallsvariablen zum Zeitpunkt des Stopps der Beobachtung abgeschnitten werden.
Xi'an
1
Überprüfen Sie die Tobit-Modelle auf abgeschnittene Daten und verwandte Quellen (z . B. hier ).
Richard Hardy
2
Sie scheinen zensierte Daten zu haben, wie Lebenszeiten, in denen einige Menschen starben, andere aber noch am Leben sind, so dass Sie nur wissen, dass beispielsweise für eine bekannte Konstante t i . xich>tichtich
kjetil b halvorsen
3
Achten Sie auf den manchmal subtilen Unterschied zwischen den beiden Situationen. Es ist nicht ungewöhnlich, dass Kürzungen für die Zensur verwechselt werden und umgekehrt.
Alecos Papadopoulos

Antworten:

16

Sie können die Parameter weiterhin schätzen, indem Sie die Wahrscheinlichkeit direkt verwenden. Die Beobachtungen seien mit der Exponentialverteilung mit der Rate λ > 0 und unbekannt. Die Dichtefunktion f ( x ; λ ) = λ e - λ x , kumulative Verteilungsfunktion F ( x ; λ ) = 1 - e - λ x und tail Funktion G ( x ; λx1,,xnλ>0f(x;;λ)=λe- -λxF.(x;;λ)=1- -e- -λx . Angenommen, die ersten r Beobachtungen sind vollständig beobachtet, währendwirfür x r + 1 , , x n nur wissen, dass x j > t j für einige bekannte positive Konstanten t j ist . Wie immer ist die Wahrscheinlichkeit die "Wahrscheinlichkeit der beobachteten Daten" für die zensierten Beobachtungen, die durch P ( X j > t j) gegeben istG(x;;λ)=1- -F.(x;;λ)=e- -λxrxr+1,,xnxj>tjtj , also ist die volle Wahrscheinlichkeitsfunktion L ( λ ) = r i = 1 f ( x i ; λ ) n i = r + 1 G ( t j ; λ ) Die Loglikelihood Funktion wird dann l ( λ ) = r log λ - λ ( xP.(X.j>tj)=G(tj;;λ)

L.(λ)=ich=1rf(xich;;λ)ich=r+1nG(tj;;λ)
die die gleiche Form wie die Log-Wahrscheinlichkeit für den üblichen, vollständig beobachteten Fall hat, mit Ausnahme des ersten Terms r log λ anstelle von n log λ . Schreiben von T für den Mittelwert von Beobachtungen und Zensieren Zeiten, der MaximumLikelihoodSchätzer von λ wird λ = r
l(λ)=rLogλ- -λ(x1++xr+tr+1++tn)
rLogλnLogλT.λ , das Sie selbst mit dem vollständig beobachteten Fall vergleichen können.λ^=rnT.
 EDIT   

r=0

l(λ)=- -nT.λ
λλ=0λλ

Aber in jedem Fall ist die wirkliche Schlussfolgerung aus den Daten in diesem Fall, dass wir mehr Zeit warten sollten, bis wir einige Ereignisse erhalten ...

λe- -λnT.pnp[p¯,1]]λLogp=- -λT.

p

P.(X.=n)=pn0,95    (sagen)
nLogpLog0,95λ
λ- -Log0,95nT..
kjetil b halvorsen
quelle
1
xj>tj