Ich habe mir das Boot-Paket in R angeschaut und obwohl ich eine Reihe guter Grundlagen für die Verwendung gefunden habe, muss ich noch etwas finden, das genau beschreibt, was "hinter den Kulissen" passiert. In diesem Beispiel wird beispielsweise gezeigt , wie Standard-Regressionskoeffizienten als Ausgangspunkt für eine Bootstrap-Regression verwendet werden. Es wird jedoch nicht erläutert, wie die Bootstrap-Prozedur die Bootstrap-Regressionskoeffizienten ableitet. Es scheint, als ob es eine Art von iterativem Prozess gibt, aber ich kann nicht genau herausfinden, was los ist.
22
Antworten:
Es gibt verschiedene "Varianten" oder Formen des Bootstraps (z. B. nicht parametrisch, parametrisch, Restresampling und viele mehr). Der Bootstrap im Beispiel wird als nicht parametrischer Bootstrap oder Resampling von Groß- und Kleinschreibung bezeichnet (siehe hier , hier , hier und hier für Anwendungen in der Regression). Die Grundidee ist, dass Sie Ihre Probe als Population behandeln und wiederholt neue Proben mit Ersatz daraus ziehen . Alle ursprünglichen Beobachtungen haben die gleiche Wahrscheinlichkeit, in die neue Stichprobe aufgenommen zu werden. Anschließend berechnen und speichern Sie die interessierende (n) Statistik (en). Dies kann der Mittelwert, der Median oder der Regressionskoeffizient unter Verwendung der neu gezogenen Stichprobe sein. Dies wird mal wiederholt . In jeder Iteration werden einige Beobachtungen aus Ihrer Originalprobe mehrmals gezogen, während einige Beobachtungen möglicherweise überhaupt nicht gezogen werden. Nach n Iterationen haben Sie n Bootstrap-Schätzungen der interessierenden Statistik (en) gespeichert (z. B. wenn n = 1000 und die interessierende Statistik der Mittelwert ist, haben Sie 1000 Bootstrap-Schätzungen des Mittelwerts). Zuletzt werden zusammenfassende Statistiken wie der Mittelwert, der Median und die Standardabweichung der n Bootstrap-Schätzungen berechnet.n n n n = 1000 n
Bootstrapping wird häufig verwendet für:
Es gibt verschiedene Methoden zum Berechnen von Konfidenzintervallen basierend auf den Bootstrap-Beispielen ( dieses Dokument enthält Erläuterungen und Anleitungen). Eine sehr einfache Methode zur Berechnung eines 95% -Konfidenzintervalls besteht darin, nur die empirischen 2,5- und 97,5-Perzentile der Bootstrap-Beispiele zu berechnen (dieses Intervall wird als Bootstrap-Perzentilintervall bezeichnet; siehe Code unten). Die einfache Perzentilintervallmethode wird in der Praxis nur selten verwendet, da es bessere Methoden gibt, wie zum Beispiel das vorspannungskorrigierte und beschleunigte Bootstrap (BCa). BCa-Intervalle passen sich sowohl der Vorspannung als auch der Neigung in der Bootstrap-Verteilung an.
Lassen Sie uns das Beispiel von der Website wiederholen, aber unsere eigene Schleife verwenden, die die oben skizzierten Ideen einbezieht (wiederholt mit Ersetzung zeichnen):
Und hier ist unsere Übersichtstabelle:
Einige Erklärungen
boot
boot
Aufrufen "Standardfehler" ist die Standardabweichung der Bootstrap-SchätzungenVergleichen Sie es mit der Ausgabe von
boot
:Vergleichen Sie die Spalten "bias" und "std. Error" mit der Spalte "sd" unserer eigenen Übersichtstabelle. Unsere 95% -Konfidenzintervalle sind den Konfidenzintervallen, die
boot.ci
mit der Perzentilmethode berechnet wurden , sehr ähnlich (jedoch nicht alle: Betrachten Sie die untere Grenze des Parameters mit Index 9).quelle
Sie sollten sich auf die Funktion konzentrieren, die
boot
als "Statistik" -Parameter übergeben wird, und deren Aufbau beachten.Das Argument "data" empfängt einen gesamten Datenrahmen, das Argument "i" jedoch eine Stichprobe der vom "boot" generierten und von 1: NROW (data) übernommenen Zeilenindizes. Wie Sie aus diesem Code ersehen können, wird "i" verwendet, um ein Neo-Sample zu erstellen, das an übergeben wird,
zeroinl
und dann werden nur ausgewählte Teile der Ergebnisse zurückgegeben.Stellen wir uns vor, dass "i" {1,2,3,3,3,6,7,7,10} ist. Die Funktion "[" gibt nur die Zeilen mit 3 Kopien von Zeile 3 und 2 Kopien von Zeile 7
zeroinl()
zurück.boot
Dies wäre die Basis für eine einzelne Berechnung, und dann werden die Koeffizienten als Ergebnis dieser Replikation des Prozesses zurückgegeben. Die Anzahl solcher Replikate wird durch den "R" -Parameter gesteuert.Da
statistic
in diesem Fall nur die Regressionskoeffizienten zurückgegeben werden, gibt dieboot
Funktion diese akkumulierten Koeffizienten als Wert von "t" zurück. Weitere Vergleiche können mit anderen Boot-Package-Funktionen durchgeführt werden.quelle