Ich befasse mich mit dem Problem, dass ich den p-Wert für eine Schätzung von aus multipliziert unterstellten (MI) Daten bootstrappen möchte , aber mir unklar ist, wie ich die p-Werte über MI-Mengen kombinieren soll.
Für MI-Datensätze verwendet der Standardansatz zur Ermittlung der Gesamtvarianz von Schätzungen Rubins Regeln. Sehen Sie hier für eine Überprüfung von Datensätzen MI bündeln. Die Quadratwurzel der Gesamtvarianz dient als Standardfehlerschätzung von . Für einige Schätzer ist jedoch keine geschlossene Form der Gesamtvarianz bekannt, oder die Stichprobenverteilung ist nicht normal. Die Statistik kann dann nicht einmal asymptotisch verteilt werden.
Im vollständigen Datenfall besteht eine alternative Möglichkeit darin, die Statistik zu booten, um die Varianz, einen p-Wert und ein Konfidenzintervall zu ermitteln, selbst wenn die Stichprobenverteilung nicht normal ist und ihre geschlossene Form unbekannt ist. Im MI-Fall gibt es dann zwei Möglichkeiten:
- Poolen Sie die Bootstrap-Varianz über MI-Datensätze
- Bündeln Sie die p-Wert- oder Konfidenzgrenzen über MI-Datensätze
Die erste Option würde dann wieder Rubins Regeln verwenden. Ich halte dies jedoch für problematisch, wenn eine nicht normale Stichprobenverteilung aufweist. In dieser Situation (oder allgemeiner in allen Situationen) kann der Bootstrapped-p-Wert direkt verwendet werden. Im MI-Fall würde dies jedoch zu mehreren p-Werten oder Konfidenzintervallen führen, die über MI-Datensätze hinweg zusammengefasst werden müssen.
Meine Frage lautet also: Wie soll ich mehrere Bootstrap-P-Werte (oder Konfidenzintervalle) in mehrfach kalkulierten Datensätzen zusammenfassen?
Ich würde mich über Vorschläge freuen, wie es weitergehen soll, danke.
Antworten:
Ich denke, beide Optionen führen zur richtigen Antwort. Im Allgemeinen würde ich Methode 1 vorziehen, da dadurch die gesamte Verteilung erhalten bleibt.
Verwenden Sie für Methode 2 das Licht-Rubin-Verfahren. Siehe So erhalten Sie gepoolte p-Werte für Tests, die in mehreren kalkulatorischen Datensätzen durchgeführt wurden.
quelle
Dies ist keine mir vertraute Literatur, aber eine Möglichkeit, dies zu erreichen, könnte darin bestehen, die Tatsache zu ignorieren, dass es sich um bootstrap-fähige p-Werte handelt, und sich die Literatur zum Kombinieren von p-Werten über mehrfach kalkulierte Datensätze anzuschauen.
In diesem Fall gelten Li, Meng, Raghunathan und Rubin (1991) . Das Verfahren basiert auf Statistiken aus jedem der unterstellten Datensätze, die anhand eines Maßes für den Informationsverlust aufgrund von Unterstellung gewichtet werden. Sie stoßen auf Probleme im Zusammenhang mit der gemeinsamen Verteilung der Statistiken auf Annahmen und machen einige vereinfachende Annahmen.
Von verwandtem Interesse ist Meng (1994) .
Aktualisieren
Ein Verfahren zum Kombinieren von p-Werten über mehrfach unterstellte Datensätze ist in der Dissertation von Christine Licht, Kap. 4 . Die Idee, die sie Don Rubin zuschreibt, besteht im Wesentlichen darin, die normalverteilten p-Werte zu transformieren, die dann unter Verwendung der Standardregeln für die Kombination von z-Statistiken über MI-Datensätze hinweg kombiniert werden können.
quelle