Wie bestimme ich, ob ein Überlebensmodell mit fehlenden Daten geeignet ist?

9

Ein bisschen vereinfacht, ich habe ungefähr eine Million Datensätze, die die Eintritts- und Austrittszeit von Personen in einem System aufzeichnen, das sich über ungefähr zehn Jahre erstreckt. Jeder Datensatz hat eine Eintrittszeit, aber nicht jeder Datensatz hat eine Austrittszeit. Die mittlere Zeit im System beträgt ~ 1 Jahr.

Die fehlenden Austrittszeiten treten aus zwei Gründen auf:

  1. Die Person hat das System zum Zeitpunkt der Datenerfassung noch nicht verlassen.
  2. Die Austrittszeit der Person wurde nicht aufgezeichnet. Dies sagt zufällig 50% der Aufzeichnungen

Die Fragen von Interesse sind:

  1. Verbringen die Leute weniger Zeit im System und wie viel weniger Zeit.
  2. Werden mehr Austrittszeiten aufgezeichnet und wie viele?

Wir können dies modellieren, indem wir sagen, dass die Wahrscheinlichkeit, dass ein Ausgang aufgezeichnet wird, linear mit der Zeit variiert und dass die Zeit im System einen Weibull hat, dessen Parameter linear mit der Zeit variieren. Wir können dann eine Maximum-Likelihood-Schätzung der verschiedenen Parameter vornehmen und die Ergebnisse betrachten und für plausibel halten. Wir haben die Weibull-Verteilung gewählt, weil sie anscheinend zur Messung der Lebensdauer verwendet wird und Spaß macht, anstatt die Daten besser anzupassen als eine Gamma-Verteilung.

Wo soll ich suchen, um einen Hinweis darauf zu bekommen, wie man das richtig macht? Wir sind etwas mathematisch versiert, aber statistisch nicht extrem versiert.

deinst
quelle

Antworten:

5

Der grundlegende Weg, um festzustellen, ob Ihre Daten Weibull sind, besteht darin, das Protokoll der kumulativen Gefahren gegen das Protokoll der Zeiten zu zeichnen und zu prüfen, ob eine gerade Linie gut passt. Die kumulative Gefahr kann mit dem nicht parametrischen Nelson-Aalen-Schätzer ermittelt werden. Es gibt ähnliche grafische Diagnosen für die Weibull-Regression, wenn Sie Ihre Daten mit Kovariaten versehen und einige Referenzen folgen.

Der Text von Klein & Moeschberger ist ziemlich gut und deckt viel mit Modellbildung / Diagnose für parametrische und semiparametrische Modelle ab (obwohl meistens letztere). Wenn Sie in R arbeiten, ist Theneaus Buch ziemlich gut (ich glaube, er hat das Überlebenspaket geschrieben ). Es deckt viele Cox PH- und zugehörige Modelle ab, aber ich kann mich nicht erinnern, ob es viele parametrische Modelle abdeckt, wie das, das Sie erstellen.

Übrigens, ist dies eine Million Probanden mit jeweils einem Ein- / Ausstieg oder wiederkehrenden Ein- / Ausstiegsereignissen für einen kleineren Personenkreis? Konditionieren Sie Ihre Wahrscheinlichkeit, den Zensurmechanismus zu berücksichtigen?

ars
quelle
Danke, das ist genau das, wonach ich gesucht habe. Dies sind im Wesentlichen eine Million Probanden mit jeweils einer Ein- und Ausgangszeit. Ja, wir konditionieren, um die Zensur zu erklären.
Deinst
2

Sie können das geschätzte Modell verwenden, um die Austrittszeiten für alle Personen in Ihrem System vorherzusagen. Sie können dann die geschätzten Austrittszeiten mit den tatsächlichen Austrittszeiten vergleichen (wo Sie diese Daten haben) und eine Metrik wie RMSE berechnen , um zu beurteilen, wie gut Ihre Vorhersagen sind, die Ihnen wiederum ein Gefühl für die Modellanpassung vermitteln. Siehe auch diesen Link .


quelle
1
Mit einem Millonpunkt und einem 8-Parameter-Modell zeigt mir ein Anpassungstest wie Chi-Quadrat, dass es im Wesentlichen keine Chance gibt, dass das Modell korrekt ist. (Was nicht verwunderlich ist, da es endlose Faktoren gibt, die die Realität beeinflussen und nicht im Modell enthalten sind.) RMSE gibt mir einen Eindruck davon, wie gut das Modell zu den Daten passt, gibt mir aber keinen Eindruck davon, ob es ein besseres Modell gibt
deinst
Um herauszufinden, ob es ein besseres Modell gibt, können Sie entweder mit verschiedenen Formulierungen experimentieren oder verschiedene Diagramme (z. B. Austrittszeiten gegen Zeit) verwenden, um festzustellen, ob die Daten mit Ihren Modellannahmen übereinstimmen. Sie können auch die vorhergesagten Austrittszeiten für eine kleine Stichprobe, die zufällig ausgewählt wurde, gegenüber den tatsächlichen Zeiten darstellen, um Ideen zur Modellverbesserung zu erhalten.