Vor- und Nachteile von Bootstrapping

11

Ich habe gerade etwas über das Konzept des Bootstrapens gelernt und eine naive Frage kam mir in den Sinn: Wenn wir immer zahlreiche Bootstrap-Beispiele unserer Daten generieren können, warum sollten wir uns überhaupt die Mühe machen, mehr "echte" Daten zu erhalten?

Ich glaube, ich habe eine Erklärung, bitte sagen Sie mir, ob ich richtig bin: Ich denke, der Bootstrapping-Prozess reduziert die Varianz, ABER wenn mein ursprünglicher Datensatz BIASED ist, stecke ich mit geringer Varianz und hoher Verzerrung fest, egal wie viele Replikate Ich nehme.

Noale
quelle
4
Bootstrapping erstellt nicht mehr Informationen als bereits in den Daten (und im Modell) enthalten ... tatsächliche Daten können Ihnen mehr Informationen geben
Glen_b - Monica
2
Ich stimme Glen_b zu, dass es nicht mehr Informationen erstellt, aber ich stimme nicht zu, dass es Ihnen weniger Informationen geben kann. Wie ich in meiner Antwort sagte, funktioniert es nicht immer gut, aber das kann von jeder statistischen Methode gesagt werden.
Michael R. Chernick
1
Interessante Frage - vielleicht ist ein verwandtes Konzept, warum der Bootstrap funktioniert? . Wenn Sie dies verstehen, wissen Sie, wann es nützlich ist. Ich betrachtete den Bootstrap als eine Verbesserung gegenüber der normalen Näherung für Stichprobenverteilungen. Es kann Abweichungen von der Normalität bewältigen, die nicht zu extrem sind. Eine weitere attraktive Funktion ist, dass Sie keine analytischen / algebraischen Arbeiten ausführen müssen - die Replikation erledigt dies für Sie.
Wahrscheinlichkeitslogik

Antworten:

15

Der Bootstrap ist eine Methode zur Inferenz so, dass keine parametrische Form für die Bevölkerungsverteilung angenommen werden muss. Die Originalprobe wird nicht so behandelt, als ob es sich um die Grundgesamtheit handelt, selbst wenn es sich um eine Probenahme handelt, bei der die Originalprobe ersetzt wird. Es wird davon ausgegangen, dass die Stichprobe mit Ersatz aus der ursprünglichen Stichprobe der Größe n eine Stichprobe der Größe n aus einer größeren Population nachahmt. Es gibt auch viele Varianten wie den Bootstrap m aus n, der die m-Zeit von einer Stichprobe der Größe n mit m <n neu abtastet. Die schönen Eigenschaften des Bootstraps hängen von der asymptotischen Theorie ab. Wie andere bereits erwähnt haben, enthält der Bootstrap nicht mehr Informationen über die Grundgesamtheit als im Originalbeispiel angegeben. Aus diesem Grund funktioniert es in kleinen Proben manchmal nicht gut.

In meinem Buch "Bootstrap Methods: A Practitioners Guide", zweite Ausgabe, das 2007 von Wiley veröffentlicht wurde, weise ich auf Situationen hin, in denen der Bootstrap fehlschlagen kann. Dies umfasst eine Verteilung ohne endliche Momente, kleine Stichprobengrößen, das Schätzen von Extremwerten aus der Verteilung und das Schätzen der Varianz bei der Stichprobenerhebung, bei der die Populationsgröße N beträgt und eine große Stichprobe n entnommen wird. In einigen Fällen können Varianten des Bootstraps besser funktionieren als der ursprüngliche Ansatz. Dies geschieht in einigen Anwendungen mit dem Bootstrap m aus n. Im Fall der Schätzung der Fehlerraten bei der Diskriminanzanalyse ist der Bootstrap 632 eine Verbesserung gegenüber anderen Methoden, einschließlich anderer Bootstrap-Methoden.

Ein Grund für die Verwendung ist, dass Sie sich manchmal nicht auf parametrische Annahmen verlassen können und der Bootstrap in einigen Situationen besser funktioniert als andere nicht parametrische Methoden. Es kann auf eine Vielzahl von Problemen angewendet werden, einschließlich nichtlinearer Regression, Klassifizierung, Konfidenzintervallschätzung, Bias-Schätzung, Anpassung von p-Werten und Zeitreihenanalyse, um nur einige zu nennen.

Michael R. Chernick
quelle
6

Ein Bootstrap-Beispiel kann Ihnen nur Informationen über das ursprüngliche Beispiel geben und gibt Ihnen keine neuen Informationen über die tatsächliche Grundgesamtheit. Es ist einfach eine nichtparametrische Methode zum Erstellen von Konfidenzintervallen und dergleichen.

Wenn Sie mehr Informationen über die Bevölkerung erhalten möchten, müssen Sie mehr Daten von der Bevölkerung sammeln.

einar
quelle