Ein bisschen vereinfacht, ich habe ungefähr eine Million Datensätze, die die Eintritts- und Austrittszeit von Personen in einem System aufzeichnen, das sich über ungefähr zehn Jahre erstreckt. Jeder Datensatz hat eine Eintrittszeit, aber nicht jeder Datensatz hat eine Austrittszeit. Die mittlere Zeit im System beträgt ~ 1 Jahr.
Die fehlenden Austrittszeiten treten aus zwei Gründen auf:
- Die Person hat das System zum Zeitpunkt der Datenerfassung noch nicht verlassen.
- Die Austrittszeit der Person wurde nicht aufgezeichnet. Dies sagt zufällig 50% der Aufzeichnungen
Die Fragen von Interesse sind:
- Verbringen die Leute weniger Zeit im System und wie viel weniger Zeit.
- Werden mehr Austrittszeiten aufgezeichnet und wie viele?
Wir können dies modellieren, indem wir sagen, dass die Wahrscheinlichkeit, dass ein Ausgang aufgezeichnet wird, linear mit der Zeit variiert und dass die Zeit im System einen Weibull hat, dessen Parameter linear mit der Zeit variieren. Wir können dann eine Maximum-Likelihood-Schätzung der verschiedenen Parameter vornehmen und die Ergebnisse betrachten und für plausibel halten. Wir haben die Weibull-Verteilung gewählt, weil sie anscheinend zur Messung der Lebensdauer verwendet wird und Spaß macht, anstatt die Daten besser anzupassen als eine Gamma-Verteilung.
Wo soll ich suchen, um einen Hinweis darauf zu bekommen, wie man das richtig macht? Wir sind etwas mathematisch versiert, aber statistisch nicht extrem versiert.
quelle
Sie können das geschätzte Modell verwenden, um die Austrittszeiten für alle Personen in Ihrem System vorherzusagen. Sie können dann die geschätzten Austrittszeiten mit den tatsächlichen Austrittszeiten vergleichen (wo Sie diese Daten haben) und eine Metrik wie RMSE berechnen , um zu beurteilen, wie gut Ihre Vorhersagen sind, die Ihnen wiederum ein Gefühl für die Modellanpassung vermitteln. Siehe auch diesen Link .
quelle