Ich wollte das Konfidenzintervall für die Standardabweichung für einige Daten schätzen. Der R-Code sieht wie folgt aus:
library(boot)
sd_boot <- function (x, ind) {
res <- sd(x$ReadyChange[ind], na.rm = TRUE)
return(res)
}
data_boot <- boot::boot(data, statistic = sd_boot, R = 10000)
plot(data_boot)
Und ich habe die nächste Handlung:
Ich kann dieses Histogramm der Bootstraps nicht richtig interpretieren. Jeder andere Satz ähnlicher Daten zeigt Normalverteilungen von Bootstrap-Schätzungen ... Aber nicht dies. Dies sind übrigens tatsächliche Rohdaten:
> data$ReadyChange
[1] 27.800000 8.985046 11.728021 8.830856 5.738600 12.028310 7.771528 9.208924 11.778611 6.024259 5.969931 6.063484 4.915764
[14] 12.027639 9.111146 13.898171 12.921377 6.916667 10.764479 6.875000 12.875000 7.017917 9.750000 7.921782 12.911551 6.000000
Können Sie mir bitte bei der Interpretation dieses Bootstrap-Musters helfen?
Antworten:
Möglicherweise liegt ein Fehler in Ihrem Code vor, oder die Bootstrap-Bibliothek führt etwas anderes als erwartet aus.Bearbeiten:
Nachdem korrigierte Daten bereitgestellt worden waren, stellte sich heraus, dass das Muster durch einen Ausreißer verursacht wurde, wobei jeder Peak der unterschiedlichen Häufigkeit entsprach, mit der der Ausreißer in eine Probe ausgewählt wurde.
quelle
inds <- matrix(sample(21,10000*21,replace=TRUE),10000,21)
und suchen Sie dann die Datenelemente aus jeder Spalte und ermitteln Sie die Standardabweichung mithist(apply(inds,1,function(ind){sd(data[ind])}))
. Es gibt nicht mehrere Spitzen.Ich zögere, dies als Antwort aufzuschreiben, aber für mich scheint dies auf die geringe Anzahl von Datenpunkten zurückzuführen zu sein, auf die Sie Ihren Bootstrap stützen (21, korrigieren Sie mich, wenn ich falsch liege).
Genauer gesagt scheinen mir diese spezifischen 21 Werte, von denen Sie eine Stichprobe machen, nur wenige häufig mögliche Standardabweichungen zu haben (die Peaks in Ihrem Histogramm). Wenn die Basisprobe größer und vielfältiger wäre, wäre das resultierende Histogramm viel glatter (und wahrscheinlich ähnlicher als die erwartete Normalverteilung).
Allgemein gesagt und unter der Annahme, dass ich hier rechts bin, ist dies ein gutes Beispiel dafür, dass Bootstrapping die Probleme einer kleinen Stichprobe nicht löst.
quelle