Welche Bootstrap-Methode wird am meisten bevorzugt?

7

Vielleicht hängt diese Frage von den angegebenen Daten ab, aber gibt es eine "bessere" Bootstrap-Methode als die anderen? Ich verwende einfach einen Datensatz mit einer Variablen (der aus den Unterschieden zwischen Fußballergebnissen (2 Mannschaften) in den letzten 15 Wochen besteht).

Beachten Sie zunächst den richtigen Versatz dieser Daten. Ich denke, dies wird berücksichtigen, welchen Bootstrap ich als "besser" oder am genauesten für die Darstellung der Daten empfehlen würde.

Geben Sie hier die Bildbeschreibung ein

Hier ist zunächst das Standard-Bootstrap-Intervall

N <- 10^4
n <- length(Differences)
Differences.mean <- numeric(N)
for(i in 1:N)
{
x <- sample(Differences, n, replace = TRUE)
Differences.mean[i]<- mean(x)
}

lower = mean(Differences.mean)-1.96*sd(Differences.mean) #Lower CI
upper = mean(Differences.mean)+1.96*sd(Differences.mean) #Upper CI
= (8.875, 10.916)

 mean(Differences.mean)-m  #The bias is fairly small also
= -.0019

Hier ist ein Bootstrap-Perzentilintervall

 quantile(Differences.mean,c(.025,.975)
 = (8.893, 10.938) 

Zuletzt ist hier das Bootstrap T-Intervall

Tstar = numeric(N)
for(i in 1:N)
{
y =sample(Differences, size = n, replace = TRUE)
Tstar[i] = (mean(y)-m) / (sd(y)/sqrt(n))
}
q1 = quantile(Tstar,.025) #empirical quantiles for bootstrap t (lower)
q2 = quantile(Tstar,.975) #empirical quantiles for bootstrap t (upper)

mean(Differences)-(q2*sd(Differences/sqrt(n)))
mean(Differences)-(q1*sd(Differences/sqrt(n)))
= (8.925, 10.997)

Außerdem scheint sogar das t-Konfidenzintervall ziemlich genau zu sein

 t.test(Differences, conf.level = .95, alternative = "two.sided")
 = (8.867, 10.928)

Mein Fazit wäre, das Bootstrap-Intervall zu wählen, da es den richtigen Versatz der Daten widerspiegelt und weiter nach rechts gestreckt ist als alle anderen. Meine Stichprobengröße ist 224. Ich denke, die Stichprobengröße spielt eine große Rolle in meiner Schlussfolgerung, aber meine erste Frage war: "Gibt es eine bessere Bootstrap-Methode als die anderen?". Vielleicht hängt sie wirklich von den Daten und der Stichprobengröße ab. Hoffentlich ist das nicht zu breit.

Brandon
quelle
Ist das ein Hausaufgabenproblem?
Jon
1
Hier ist ein guter Artikel zum Lesen: "Theoretischer Vergleich der Bootstrap-Konfidenzintervalle": projecteuclid.org/download/pdf_1/euclid.aos/1176350933
Jon
2
Es sieht so aus, als hätten Sie einige gute Ideen. Schauen Sie sich Tim Hesterbergs Arbeit am Bootstrap t an. Ich verstehe Ihr Diagramm nicht ganz, weil es nicht zeigt, wie weit die Kurve auf der negativen Seite geht. Ich bin ein wenig überrascht, wie eng die Intervalle für alle Methoden sind. Ich hätte erwartet, dass der Standard-Bootstrap viel schlechter abschneidet.
Michael R. Chernick
1
Haben Sie BC und BCa in Betracht gezogen?
Michael R. Chernick
1
Sie können sich diese Bücher der Autoren Efron und Tibshirani 1993 ansehen. Davison und Hinkley 1997 und Chernick 2007. Mein Buch wurde von Wiley veröffentlicht. Efron Chapman und Hall und Davison und Hinkley Cambridge University Press, denke ich.
Michael R. Chernick

Antworten:

1

Wie Michael Chernick bemerkt , wäre es nützlich, auch den vorspannungskorrigierten (BC) und den vorspannungskorrigierten und beschleunigten (BCa) Bootstrap zu betrachten.

Insbesondere die BCa-Variante versucht, mit der Schiefe der Daten umzugehen, wie Sie es anscheinend getan haben. DiCiccio & Efron (1996, Statistical Science ) stellten fest, dass es gut funktioniert, ebenso wie Davison & Hinkley, Bootstrap Methods und ihre Anwendungen (1997).

Warum hat mein Bootstrap-Intervall eine schreckliche Abdeckung? ist verwandt, und ich würde besonders den Artikel von Canto et al. (2006) , die ich dort zitiere. Und am Ende stimme ich zu, dass die Antwort wahrscheinlich mit der Stichprobengröße sowie Ihrer zugrunde liegenden Verteilung und der Pivotalität oder Nicht-Pivotalität der Statistik zusammenhängt, die Sie booten.

Stephan Kolassa
quelle
Es ist sehr wichtig, die Nichtüberdeckungswahrscheinlichkeiten auf beiden Seiten des Konfidenzintervalls zu simulieren. Als ich das für die Protokollnormalverteilung getan habe, haben alle Bootstrap-Intervalle eine schreckliche Abdeckung, mit Ausnahme von Bootstrap t, das ich nicht ausprobiert habe. Es lohnt sich auch, ein Standard-Bootstrap-Paket zu verwenden, um das Bootstrap-Ergebnis zu überprüfen.
Frank Harrell