Ich habe ein Experiment, das Beobachtungen der Zeit bis zum Eintreten eines Ereignisses liefert. Einige grundlegende Eigenschaften sind das
- Wir zählen die Anzahl der Ereignisse, die zu einem bestimmten Zeitpunkt aufgetreten sind .
- Ereigniszeiten werden zwischen ,
- Einzelpersonen verlassen den Prozess nicht zwischen , eine Einzelperson erlebt das Ereignis entweder durch oder nicht, an welchem Punkt sie zensiert werden.t 1
- Ein großer Teil der Personen wird das Ereignis nicht bis , wenn wir das Experiment beenden, und
- Ich kann keine zugrunde liegenden parametrischen Zerfallsmodelle annehmen.
Es scheint eine natürliche Anwendung für die Überlebensanalyse zu sein. Es wird jedoch durch die Tatsache kompliziert, dass es trivial ist, das Experiment aus derselben Anfangskonfiguration mehrmals zu wiederholen. Tatsächlich haben wir für jede Beobachtungszeit eine Menge von Ereigniszählungen (wobei die Anzahl der Abtastwerte ist) . Ich bin relativ neu in der Statistik und habe Schwierigkeiten zu sehen, wie man eine Überlebensanalyse auf diese Daten anwendet (wenn sie überhaupt anwendbar ist und es keine geeigneteren Methoden gibt, um diese Art von Zeit-zu-Ereignis-Daten zu messen). Meine Neigung ist es, die Überlebensfunktion um die mittlere Anzahl beobachteter Ereignisse in jedem Intervall zu konstruieren (dh s t i ˉ m 1 , . . . , n), die die erwartete Anzahl von Ereignissen in jedem Intervall in der Bevölkerung besser approximieren sollte, aber ich habe keine Ahnung, ob dies angemessen ist oder welche Auswirkungen dies hat.
Ich habe vergeblich in Google Scholar gesucht. Wenn mich jemand auf mehr Material verweisen könnte (oder mir die richtige Nomenklatur für das geben könnte, was ich versuche), wäre ich dankbar.
Bearbeiten
Angesichts der Tatsache, dass die -Intervalle über alle Stichproben hinweg einheitlich sind, sagen wir, dass ich die folgende Matrix hatte, die die kumulative Anzahl von Personen beschreibt, für die in jedem Intervall ein Ereignis aufgetreten ist
Dabei gibt jede Zeile die Ereignisanzahl für dieselbe Gruppe von Risikopersonen bei über alle Stichproben (dh mehrere Instanzen des Experiments) an, und jede Spalte ist ein Beobachtungsintervall. Ich gehe davon aus, dass ich durch die mittlere Anzahl von Ereignissen für jedes Intervall eine bessere Schätzung des erwarteten Überlebens der Population erhalten kann. bezeichne also die Anzahl der Zeitintervalle, die Anzahl der Proben (Versuchsinstanzen) und dann den Vektorn s
ist die mittlere Anzahl der beobachteten Ereignisse für jedes Zeitintervall.
Mein Ziel ist es daher, dies als Input für die Überlebensschätzung zu verwenden. Sei die Anzahl der gefährdeten Personen, wenn . Unter Verwendung des naiven Schätzers ( vorerst, da die Ereignisintervalle über alle Stichproben hinweg einheitlich sind und es bis keine Zensur gibt ) könnte die Überlebensfunktion wie folgt geschätzt werden:t = 0 t n
Dies wäre (hoffentlich) eine bessere Schätzung des Überlebens der Bevölkerung als jede einzelne Stichprobe (eine einzelne Zeile von ). Um meine Frage neu zu formulieren:
- Ist eine geeignete Eingabe für eine Überlebensfunktionsschätzung? Ich habe diesen Ansatz in keinem der Materialien gesehen, die ich gelesen habe.
- Kann mich jemand auf ein Material (akademische Arbeiten, Lehrbücher, Wikis usw. wären in Ordnung) zur Schätzung des Konfidenzintervalls und der Varianz für diese Überlebensfunktionsschätzung verweisen, da ich wirklich ein schmerzlicher Anfänger in der Statistik bin? Ich gehe davon aus, dass es nicht mit Standardformulierungen identisch sein wird.
Entschuldigung, wenn meine ursprüngliche Frage verwirrend war, habe ich wahrscheinlich nicht genügend Informationen hinzugefügt.
Antworten:
Ich hatte kürzlich eine Reihe von intervallzensierten Überlebensdaten, sodass ich genau weiß, was Sie brauchen. Wenn Sie jemals verwendet haben
R
, sollte dies helfen.Wenn Sie keine parametrische Form annehmen möchten, wie wäre es dann mit einem intervallzensierten Cox-Proportional-Hazards-Modell? Das
intcox
Paket, das dies tun würde, befindet sich nicht mehr imR
Repository. Ich würde vorschlagen, Überlebenszeiten zu berechnen und dann diecoxph
Funktion aus dersurvival
Bibliothek zu verwenden. Beachten Sie, dass Ihre Standardfehler bei dieser Methode zu gering sind. Sie haben die Unsicherheit, die genaue Überlebenszeit nicht zu kennen, nicht berücksichtigt. Wenn Sie intervallzensierte Überlebensschätzungen wünschen, verwenden Sie dieicfit
Funktion aus deminterval
Paket.Eine andere Möglichkeit, die Auswirkung von Kovariaten auf die Überlebenszeit zu analysieren, ist die Verwendung einer intervallzensierten, nichtparametrischen Regression. Siehe das
R
PaketICE
: http://cran.r-project.org/web/packages/ICE/ICE.pdf . Sie müssen zuerst die Mittelpunkte der Überlebenszeit unterstellen, dann führen Sie eine lokale lineare Regression mit derlocpoly
Funktion aus demnp
Paket durch. Es ist nicht so schwer, wie es sich anhört.quelle
Die Überlebensfunktion ist normalerweise rechtskontinuierlich, da es sich um eine Verteilungsfunktion handelt. Als Intervall verwende ich .ak:=[tk−1,tk),k=1,2,⋯,n
Sei und die wahre kontinuierliche Überlebens- und Zensurzeit für Subjekt in Probe . Beide Variablen können nicht direkt beobachtet werden, sondern nur in einem der Intervalle . Weiterhin sei das Intervall, in das fällt, im Wesentlichen eine diskrete Überlebenszeit, und in ähnlicher Weise für . Dann ist der Zensurindikator gegeben durch .Tij Cij j i a1,a2,⋯ Xij Tij Cij Cij δij=1(Xij≤Cij)
Die Gefahrenfunktion für die diskrete Überlebenszeit ist definiert als die bedingte Wahrscheinlichkeit des Auftretens des Ereignisses im ten Zeitintervall, vorausgesetzt, es ist nicht vor dem ten Intervall aufgetreten , d. H.hij(x) x x−1
und die entsprechende Überlebensfunktion kann unter Verwendung des bedingten Produktgesetzes rekursiv geschrieben werden:Sij=P(X>x)
Die Wahrscheinlichkeitsfunktion des Paares kann als Produkt zweier Arten von Subjekten konstruiert werden, nämlich derjenigen, die ein Ereignis bei erlebt haben ( ) und diejenigen, die bei zensiert wurden ( ):(xij,δij) xij Xij=xij,δij=1 xij Xij>xij,δij=0
Wenn wir nun unsere Daten in eine Ereignisverlaufsstruktur rekonstruieren, die in jedem Intervall eine Ereignisindikatorvariable für das te Intervall des ten Subjekts aus Probe aufzeichnet , können wir sehen, dass oben in umgeschrieben (summiert im Grunde alle bis zum letzten beobachteten Intervall dieses Subjekts, wenn er ein Ereignis hat, ist es 1, wenn zensiert 0). Dann können wir unsere Log-Wahrscheinlichkeit umschreiben alsyijk k j i δijlog[hij(xij)/(1−hij(xij)] ∑xijk=1yijklog[hij(k)/(1−hij(k))]
Jetzt können wir endlich Ihre Frage beantworten. Wenn wir annehmen würden, dass im gleichen Intervall für verschiedene Subjekte in Probe und auch für verschiedene Proben iid ist , dann ist ist der geeignete Schätzer für .yijk j i Mj¯=(∑ini)−1∑si=1∑nij=1yijk hij(k)=h(k)
Und der geeignete Schätzer für ist daher .S ( x ) = Π x k = 1 ( 1 - ˉ M j )S(x) S^(x)=∏xk=1(1−M¯j)
quelle