Richtige Bootstrapping-Technik für Cluster-Daten?

16

Ich habe eine Frage zur richtigen Bootstrapping-Technik für Daten, bei denen eine starke Clusterbildung vorliegt.

Ich wurde beauftragt, ein Vorhersagemodell mit multivariaten gemischten Effekten für Versicherungsfalldaten zu evaluieren, indem ich das aktuelle Basismodell für neuere Schadensfalldaten ausgewertet habe, um zu bestimmen, wie gut das Modell vorhersagt, welche Behandlungsepisoden die höchste Häufigkeit von Sitzungen enthalten (oben) 95. Perzentil). Sensitivität, Spezifität und positiver Vorhersagewert (PPV) werden verwendet, um die Wirksamkeit des Modells zu bewerten.

Bootstrapping scheint der richtige Weg zu sein, um Konfidenzintervalle für die Sensitivität, Spezifität und PPV-Prozentsätze zu erstellen. Leider ist ein naiver Bootstrap nicht angemessen, da die Daten zu den Schadensfällen 1) vom Leistungserbringer korreliert sind, 2) in Pflegeepisoden mit häufigeren Besuchen in den Monaten zuvor in der Pflegeepisode zusammengefasst sind (so dass eine gewisse Autokorrelation vorliegt). Wäre hier eine Variation der Bootstrap-Technik für Moving Blocks angebracht?

Oder vielleicht würde ein dreistufiges Bootstrap-Verfahren funktionieren: 1) Stichprobe mit Ersetzung durch die verschiedenen Anbieter in den Daten, dann 2) Stichprobe mit Ersetzung durch ausgewählte Anbieter aus verschiedenen Betreuungsphasen, dann 3) Stichprobe mit Ersetzung durch verschiedene Ansprüche innerhalb der Daten ausgewählte Folge.

Vielen Dank für alle Anregungen!

RobertF
quelle

Antworten:

14

Der zweite Ansatz, den Sie vorschlagen, erscheint vernünftig, aber es stellt sich heraus, dass es besser ist, nur mit Ersetzung auf der höchsten Ebene und ohne Ersetzung auf den verbleibenden Unterebenen zu sampeln, wenn hierarchische Daten gebootet werden. Dies geht aus Simulationen von Ren et al. (2010) hervor: http://www.tandfonline.com/doi/abs/10.1080/02664760903046102

Field & Welsh (2007) untersuchte theoretisch verschiedene Ansätze für 2-Level-Datensätze und stellte fest, dass Stichproben mit Ersetzung auf beiden Ebenen keine brillante Idee waren.
http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2007.00593.x/full

Die von Ihnen erwähnte Autokorrelation ist ein ernstes Problem. Auf der anderen Seite würde die Autokorrelationsstruktur erhalten bleiben, wenn die Auswahl ohne Ersatz aus Pflegeepisoden erfolgt. Vielleicht ist dies also kein so großes Problem.

Pelle
quelle
Ich frage mich, ob die folgende Lösung angemessen ist:
Rafael
... Entschuldigung, ich konnte meinen vorherigen Kommentar nicht beenden. Hier ist es: ... Erstellen Sie einen Code (ID), der jede Clusterebene berücksichtigt (z. B. episoid1.claim1, episoid1.claim1, ..., episoid2.claim1, episoid2.claim2, ..., episoidn.claimp). Verwenden Sie dann GEE, mit dem Sie sich mit Autokorrelation befassen können. Ich habe irgendwo gelesen, dass GEE-Modelle auch bei Vorhandensein von Clustyer-Strukturen robuste Schätzungen liefern. Klingt diese Lösung vernünftig?
Rafael