Wie kann ich Bootstrap-p-Werte über mehrfach kalkulierte Datensätze zusammenfassen?

12

Ich befasse mich mit dem Problem, dass ich den p-Wert für eine Schätzung von aus multipliziert unterstellten (MI) Daten bootstrappen möchte , aber mir unklar ist, wie ich die p-Werte über MI-Mengen kombinieren soll.θ

Für MI-Datensätze verwendet der Standardansatz zur Ermittlung der Gesamtvarianz von Schätzungen Rubins Regeln. Sehen Sie hier für eine Überprüfung von Datensätzen MI bündeln. Die Quadratwurzel der Gesamtvarianz dient als Standardfehlerschätzung von . Für einige Schätzer ist jedoch keine geschlossene Form der Gesamtvarianz bekannt, oder die Stichprobenverteilung ist nicht normal. Die Statistik kann dann nicht einmal asymptotisch verteilt werden.θθ/se(θ)

Im vollständigen Datenfall besteht eine alternative Möglichkeit darin, die Statistik zu booten, um die Varianz, einen p-Wert und ein Konfidenzintervall zu ermitteln, selbst wenn die Stichprobenverteilung nicht normal ist und ihre geschlossene Form unbekannt ist. Im MI-Fall gibt es dann zwei Möglichkeiten:

  • Poolen Sie die Bootstrap-Varianz über MI-Datensätze
  • Bündeln Sie die p-Wert- oder Konfidenzgrenzen über MI-Datensätze

Die erste Option würde dann wieder Rubins Regeln verwenden. Ich halte dies jedoch für problematisch, wenn eine nicht normale Stichprobenverteilung aufweist. In dieser Situation (oder allgemeiner in allen Situationen) kann der Bootstrapped-p-Wert direkt verwendet werden. Im MI-Fall würde dies jedoch zu mehreren p-Werten oder Konfidenzintervallen führen, die über MI-Datensätze hinweg zusammengefasst werden müssen.θ

Meine Frage lautet also: Wie soll ich mehrere Bootstrap-P-Werte (oder Konfidenzintervalle) in mehrfach kalkulierten Datensätzen zusammenfassen?

Ich würde mich über Vorschläge freuen, wie es weitergehen soll, danke.

Tomka
quelle
Vielleicht hilfreich: Fehlende Daten, Imputation und das Bootstrap (Efron 1992) statistics.stanford.edu/sites/default/files/BIO%2520153.pdf
DL Dahly
@DLDahly Hmm, ich kenne das Papier nicht, aber es scheint die Idee zu sein, zuerst ein Bootstrap durchzuführen und dann mehrere Imputationen durchzuführen. Das OP scheint Bootstrapping-Schätzungen aus MI-Datensätzen zu sein.
Tschakravarty
@fgnu In der Tat besteht die Standardprozedur zum Abrufen der Gesamtvarianz einer Schätzung per Bootstrap darin, die Varianz in jedem MI-Dataset zu booten und dann Rubins Regeln anzuwenden, um die Bootstrap-Varianz über MI-Datasets zu bündeln.
Tomka

Antworten:

6

Ich denke, beide Optionen führen zur richtigen Antwort. Im Allgemeinen würde ich Methode 1 vorziehen, da dadurch die gesamte Verteilung erhalten bleibt.

kmmk×m

Verwenden Sie für Methode 2 das Licht-Rubin-Verfahren. Siehe So erhalten Sie gepoolte p-Werte für Tests, die in mehreren kalkulatorischen Datensätzen durchgeführt wurden.

Stef van Buuren
quelle
+1 - WENN das Ziel darin besteht, die Variabilität der Schätzungen über die MI-Datensätze hinweg zu verstehen, würde ich in jedem MI-Datensatz einen Bootstrap durchführen und die Gesamt- und MI-spezifischen Verteilungen des Parameters untersuchen.
DL Dahly
@ Stef-van-Buuren Was DL Dahly vorschlägt, ist anscheinend gleichbedeutend mit der Zusammenfassung der Boostrapped-Varianz über MI-Sets hinweg. Würden Sie dennoch Ihre Methode 1 (Anhängen aller Bootstrap-Datensätze) dieser "indirekten" Methode vorziehen?
Tomka
@tomka. Ich würde mit Sicherheit das Gleiche tun wie DL Dahly und die Verteilung innerhalb und zwischen Imputationen untersuchen. Um beide Arten von Distributionen zu integrieren, müssen wir sie auf irgendeine Weise kombinieren. Mein Vorschlag ist, sie einfach zu mischen.
Stef van Buuren
6

Dies ist keine mir vertraute Literatur, aber eine Möglichkeit, dies zu erreichen, könnte darin bestehen, die Tatsache zu ignorieren, dass es sich um bootstrap-fähige p-Werte handelt, und sich die Literatur zum Kombinieren von p-Werten über mehrfach kalkulierte Datensätze anzuschauen.

In diesem Fall gelten Li, Meng, Raghunathan und Rubin (1991) . Das Verfahren basiert auf Statistiken aus jedem der unterstellten Datensätze, die anhand eines Maßes für den Informationsverlust aufgrund von Unterstellung gewichtet werden. Sie stoßen auf Probleme im Zusammenhang mit der gemeinsamen Verteilung der Statistiken auf Annahmen und machen einige vereinfachende Annahmen.

Von verwandtem Interesse ist Meng (1994) .

Aktualisieren

Ein Verfahren zum Kombinieren von p-Werten über mehrfach unterstellte Datensätze ist in der Dissertation von Christine Licht, Kap. 4 . Die Idee, die sie Don Rubin zuschreibt, besteht im Wesentlichen darin, die normalverteilten p-Werte zu transformieren, die dann unter Verwendung der Standardregeln für die Kombination von z-Statistiken über MI-Datensätze hinweg kombiniert werden können.

tchakravarty
quelle
Wenn ich das verstehe, haben Li et al. funktioniert einwandfrei, gilt für Statistiken, die Sie von jedem MI-Satz erhalten. Wenn Sie beispielsweise Pearson Chi² für jede Menge erhalten, können deren Regeln angewendet werden, um sie für die Inferenz über Mengen hinweg zu kombinieren. Zum Beispiel könnte auch ein Wald-Test durchgeführt werden. Im Fall eines Bootstraps erhalten Sie jedoch keine Statistik, die Sie bündeln würden (sondern nur einen p-Wert). Ich bin mir also nicht sicher, ob Li et al. das könnte auf den bootstrapped p angewendet werden.
Tomka
1
@tomka Ich habe meine Antwort aktualisiert.
Tschakravarty