Beim Lesen, wie man die Verteilung des Stichprobenmittelwerts approximiert, bin ich auf die nichtparametrische Bootstrap-Methode gestoßen. Anscheinend kann man die Verteilung von durch die Verteilung von , wobei den Stichprobenmittelwert von bezeichnet das Bootstrap-Beispiel.
Meine Frage ist dann: Brauche ich die Zentrierung? Wozu?
Konnte ich nicht einfach durch approximieren ?
distributions
bootstrap
resampling
centering
Christin
quelle
quelle
Antworten:
Ja, Sie können nähern von , aber es ist nicht optimal. Dies ist eine Form des Perzentil-Bootstraps. Der Perzentil-Bootstrap funktioniert jedoch nicht gut, wenn Sie Rückschlüsse auf die durchschnittliche Grundgesamtheit ziehen möchten, es sei denn, Sie haben eine große Stichprobengröße. (Es funktioniert gut mit vielen anderen Inferenzproblemen, einschließlich wenn die Stichprobengröße klein ist.) Ich entnehme diese Schlussfolgerung aus Wilcox ' Modern Statistics for the Social and Behavioral Sciences , CRC Press, 2012. Ich fürchte, ein theoretischer Beweis ist mir unverständlich .P(X¯n≤x) P(X¯∗n≤x)
Eine Variante des Zentrierungsansatzes geht in den nächsten Schritt und skaliert Ihre zentrierte Bootstrap-Statistik mit der Standardabweichung und der Stichprobengröße für die erneute Stichprobe. Die Berechnung erfolgt auf dieselbe Weise wie bei der Statistik. Die Quantile aus der Verteilung dieser t-Statistiken können verwendet werden, um ein Konfidenzintervall zu erstellen oder einen Hypothesentest durchzuführen. Dies ist die Bootstrap-t-Methode, die hervorragende Ergebnisse liefert, wenn Rückschlüsse auf den Mittelwert gezogen werden.
Sei die Neuabtastungs-Standardabweichung basierend auf einer Neuabtastung des Bootstraps, wobei n-1 als Nenner verwendet wird; und s ist die Standardabweichung der Originalprobe. Lassens∗
Betrachten Sie die folgenden Simulationsergebnisse, die zeigen, dass die Konfidenzintervalle dieser Methode bei einer schlecht verzerrten gemischten Verteilung häufiger den wahren Wert enthalten als die Perzentil-Bootstrap-Methode oder eine herkömmliche Inversion einer Statistik ohne Bootstrapping.
Dies ergibt Folgendes (conf.t ist die Bootstrap-t-Methode; conf.p ist die Perzentil-Bootstrap-Methode).
Mit einem einzigen Beispiel aus einer verzerrten Verteilung:
Dies ergibt folgendes. Beachten Sie, dass "conf.t" - die Bootstrap-t-Version - ein breiteres Konfidenzintervall als die beiden anderen bietet. Grundsätzlich ist es besser, auf die ungewöhnliche Verteilung der Bevölkerung zu reagieren.
Schließlich finden Sie hier tausend Simulationen, um zu sehen, welche Version die am häufigsten korrekten Konfidenzintervalle liefert:
Dies ergibt die folgenden Ergebnisse - die Zahlen sind die Zeiten von 1.000, zu denen das Konfidenzintervall den wahren Wert einer simulierten Grundgesamtheit enthält. Beachten Sie, dass die tatsächliche Erfolgsquote jeder Version deutlich unter 95% liegt.
quelle