Ich habe eine Frage zur richtigen Bootstrapping-Technik für Daten, bei denen eine starke Clusterbildung vorliegt.
Ich wurde beauftragt, ein Vorhersagemodell mit multivariaten gemischten Effekten für Versicherungsfalldaten zu evaluieren, indem ich das aktuelle Basismodell für neuere Schadensfalldaten ausgewertet habe, um zu bestimmen, wie gut das Modell vorhersagt, welche Behandlungsepisoden die höchste Häufigkeit von Sitzungen enthalten (oben) 95. Perzentil). Sensitivität, Spezifität und positiver Vorhersagewert (PPV) werden verwendet, um die Wirksamkeit des Modells zu bewerten.
Bootstrapping scheint der richtige Weg zu sein, um Konfidenzintervalle für die Sensitivität, Spezifität und PPV-Prozentsätze zu erstellen. Leider ist ein naiver Bootstrap nicht angemessen, da die Daten zu den Schadensfällen 1) vom Leistungserbringer korreliert sind, 2) in Pflegeepisoden mit häufigeren Besuchen in den Monaten zuvor in der Pflegeepisode zusammengefasst sind (so dass eine gewisse Autokorrelation vorliegt). Wäre hier eine Variation der Bootstrap-Technik für Moving Blocks angebracht?
Oder vielleicht würde ein dreistufiges Bootstrap-Verfahren funktionieren: 1) Stichprobe mit Ersetzung durch die verschiedenen Anbieter in den Daten, dann 2) Stichprobe mit Ersetzung durch ausgewählte Anbieter aus verschiedenen Betreuungsphasen, dann 3) Stichprobe mit Ersetzung durch verschiedene Ansprüche innerhalb der Daten ausgewählte Folge.
Vielen Dank für alle Anregungen!