Kann Bootstrap Resampling verwendet werden, um ein Konfidenzintervall für die Varianz eines Datensatzes zu berechnen?
Ja, genau wie bei vielen anderen Statistiken.
Ich weiß, dass, wenn Sie mehrmals aus einem Datensatz eine neue Stichprobe erstellen und jedes Mal den Mittelwert berechnen, diese Mittelwerte einer Normalverteilung (durch die CLT) folgen.
Es ist nicht immer der Fall, dass beim Bootstrap eines Mittelwerts das Bootstrap-Mittel einer Normalverteilung folgt, selbst für Verteilungen, für die das CLT gilt.
Hier ist ein Beispiel, in dem ich den Mittelwert für eine Stichprobe der Größe abgetastet habe, wobei ich 10000 Mal neu abgetastet habe:n=100
Es ist nicht im entferntesten normal.
Die ursprüngliche Stichprobe besteht aus siebenundneunzig '0'-Werten und einer' 1 ', einer' 2 'und einer' 100 '.
Hier ist der (R) Code, den ich ausgeführt habe, um den obigen Plot zu generieren:
x <- c(rep(0,97),1,2,100)
y <- replicate(10000,mean(sample(x,replace=TRUE)))
plot(table(y),type="h")
Das Problem ist, dass in diesem Fall die Stichprobengröße (100) zu klein ist, als dass die CLT diese Art von Verteilungsform anwenden könnte. Es spielt keine Rolle, wie oft wir es erneut abtasten.
Wenn jedoch die ursprüngliche Stichprobengröße viel größer ist, sieht die Neuabtastungsverteilung der Stichprobenmittel für so etwas normaler aus (wenn auch immer diskret).
Hier sind die ecdfs beim erneuten Abtasten der obigen Daten (schwarz) und für Werte in denselben Proportionen, jedoch mit zehnmal so vielen Werten (rot; dh n = 1000):
Wie wir sehen, sieht die Verteilungsfunktion beim erneuten Abtasten der großen Stichprobe viel normaler aus.
Wenn ich viele Male eine neue Stichprobe aus einem Datensatz erstellen und die Varianz jedes Mal berechnen würde, würden diese Varianzen einer bestimmten Verteilung folgen
Nein, aus dem gleichen Grund gilt dies nicht unbedingt für den Mittelwert.
Die CLT gilt jedoch auch für die Varianz *; Es ist nur so, dass Sie nicht behaupten können, dass das CLT für das Bootstrap-Resampling gilt, indem Sie einfach viele Resamples erstellen. Wenn die ursprüngliche Stichprobengröße ausreichend groß ist, kann dies (unter den richtigen Bedingungen) dazu führen, dass die Neuabtastungsverteilung von Mitteln (und höheren Momenten, falls vorhanden) relativ nahe an einer Normalverteilung liegt (relativ zu ihrer Verteilung in kleineren Stichproben, bei am wenigsten).
* dass die CLT normalerweise für die Varianz gilt (vorausgesetzt, es liegen geeignete Momente vor), ist intuitiv, wenn Sie . Sei ; dann ist . Wenn also die CLT für die Variable gilt, kann sie auf angewendet werden . Jetzt ist nur eine skalierte Version von ; Wenn die CLT für gilt, gilt sie für . Dieser Umriss eines Arguments ist jedoch nicht vollständig und es gibt einige Ausnahmen, die Sie zunächst möglicherweise nicht erwarten.s2n=1n∑ni=1(xi−x¯)2yi=(xi−x¯)2s2n=y¯ys2ns2n−1s2ns2ns2n−1