Vielleicht hängt diese Frage von den angegebenen Daten ab, aber gibt es eine "bessere" Bootstrap-Methode als die anderen? Ich verwende einfach einen Datensatz mit einer Variablen (der aus den Unterschieden zwischen Fußballergebnissen (2 Mannschaften) in den letzten 15 Wochen besteht).
Beachten Sie zunächst den richtigen Versatz dieser Daten. Ich denke, dies wird berücksichtigen, welchen Bootstrap ich als "besser" oder am genauesten für die Darstellung der Daten empfehlen würde.
Hier ist zunächst das Standard-Bootstrap-Intervall
N <- 10^4
n <- length(Differences)
Differences.mean <- numeric(N)
for(i in 1:N)
{
x <- sample(Differences, n, replace = TRUE)
Differences.mean[i]<- mean(x)
}
lower = mean(Differences.mean)-1.96*sd(Differences.mean) #Lower CI
upper = mean(Differences.mean)+1.96*sd(Differences.mean) #Upper CI
= (8.875, 10.916)
mean(Differences.mean)-m #The bias is fairly small also
= -.0019
Hier ist ein Bootstrap-Perzentilintervall
quantile(Differences.mean,c(.025,.975)
= (8.893, 10.938)
Zuletzt ist hier das Bootstrap T-Intervall
Tstar = numeric(N)
for(i in 1:N)
{
y =sample(Differences, size = n, replace = TRUE)
Tstar[i] = (mean(y)-m) / (sd(y)/sqrt(n))
}
q1 = quantile(Tstar,.025) #empirical quantiles for bootstrap t (lower)
q2 = quantile(Tstar,.975) #empirical quantiles for bootstrap t (upper)
mean(Differences)-(q2*sd(Differences/sqrt(n)))
mean(Differences)-(q1*sd(Differences/sqrt(n)))
= (8.925, 10.997)
Außerdem scheint sogar das t-Konfidenzintervall ziemlich genau zu sein
t.test(Differences, conf.level = .95, alternative = "two.sided")
= (8.867, 10.928)
Mein Fazit wäre, das Bootstrap-Intervall zu wählen, da es den richtigen Versatz der Daten widerspiegelt und weiter nach rechts gestreckt ist als alle anderen. Meine Stichprobengröße ist 224. Ich denke, die Stichprobengröße spielt eine große Rolle in meiner Schlussfolgerung, aber meine erste Frage war: "Gibt es eine bessere Bootstrap-Methode als die anderen?". Vielleicht hängt sie wirklich von den Daten und der Stichprobengröße ab. Hoffentlich ist das nicht zu breit.
quelle
Antworten:
Wie Michael Chernick bemerkt , wäre es nützlich, auch den vorspannungskorrigierten (BC) und den vorspannungskorrigierten und beschleunigten (BCa) Bootstrap zu betrachten.
Insbesondere die BCa-Variante versucht, mit der Schiefe der Daten umzugehen, wie Sie es anscheinend getan haben. DiCiccio & Efron (1996, Statistical Science ) stellten fest, dass es gut funktioniert, ebenso wie Davison & Hinkley, Bootstrap Methods und ihre Anwendungen (1997).
Warum hat mein Bootstrap-Intervall eine schreckliche Abdeckung? ist verwandt, und ich würde besonders den Artikel von Canto et al. (2006) , die ich dort zitiere. Und am Ende stimme ich zu, dass die Antwort wahrscheinlich mit der Stichprobengröße sowie Ihrer zugrunde liegenden Verteilung und der Pivotalität oder Nicht-Pivotalität der Statistik zusammenhängt, die Sie booten.
quelle