Ich habe gerade etwas über das Konzept des Bootstrapens gelernt und eine naive Frage kam mir in den Sinn: Wenn wir immer zahlreiche Bootstrap-Beispiele unserer Daten generieren können, warum sollten wir uns überhaupt die Mühe machen, mehr "echte" Daten zu erhalten?
Ich glaube, ich habe eine Erklärung, bitte sagen Sie mir, ob ich richtig bin: Ich denke, der Bootstrapping-Prozess reduziert die Varianz, ABER wenn mein ursprünglicher Datensatz BIASED ist, stecke ich mit geringer Varianz und hoher Verzerrung fest, egal wie viele Replikate Ich nehme.
Antworten:
Der Bootstrap ist eine Methode zur Inferenz so, dass keine parametrische Form für die Bevölkerungsverteilung angenommen werden muss. Die Originalprobe wird nicht so behandelt, als ob es sich um die Grundgesamtheit handelt, selbst wenn es sich um eine Probenahme handelt, bei der die Originalprobe ersetzt wird. Es wird davon ausgegangen, dass die Stichprobe mit Ersatz aus der ursprünglichen Stichprobe der Größe n eine Stichprobe der Größe n aus einer größeren Population nachahmt. Es gibt auch viele Varianten wie den Bootstrap m aus n, der die m-Zeit von einer Stichprobe der Größe n mit m <n neu abtastet. Die schönen Eigenschaften des Bootstraps hängen von der asymptotischen Theorie ab. Wie andere bereits erwähnt haben, enthält der Bootstrap nicht mehr Informationen über die Grundgesamtheit als im Originalbeispiel angegeben. Aus diesem Grund funktioniert es in kleinen Proben manchmal nicht gut.
In meinem Buch "Bootstrap Methods: A Practitioners Guide", zweite Ausgabe, das 2007 von Wiley veröffentlicht wurde, weise ich auf Situationen hin, in denen der Bootstrap fehlschlagen kann. Dies umfasst eine Verteilung ohne endliche Momente, kleine Stichprobengrößen, das Schätzen von Extremwerten aus der Verteilung und das Schätzen der Varianz bei der Stichprobenerhebung, bei der die Populationsgröße N beträgt und eine große Stichprobe n entnommen wird. In einigen Fällen können Varianten des Bootstraps besser funktionieren als der ursprüngliche Ansatz. Dies geschieht in einigen Anwendungen mit dem Bootstrap m aus n. Im Fall der Schätzung der Fehlerraten bei der Diskriminanzanalyse ist der Bootstrap 632 eine Verbesserung gegenüber anderen Methoden, einschließlich anderer Bootstrap-Methoden.
Ein Grund für die Verwendung ist, dass Sie sich manchmal nicht auf parametrische Annahmen verlassen können und der Bootstrap in einigen Situationen besser funktioniert als andere nicht parametrische Methoden. Es kann auf eine Vielzahl von Problemen angewendet werden, einschließlich nichtlinearer Regression, Klassifizierung, Konfidenzintervallschätzung, Bias-Schätzung, Anpassung von p-Werten und Zeitreihenanalyse, um nur einige zu nennen.
quelle
Ein Bootstrap-Beispiel kann Ihnen nur Informationen über das ursprüngliche Beispiel geben und gibt Ihnen keine neuen Informationen über die tatsächliche Grundgesamtheit. Es ist einfach eine nichtparametrische Methode zum Erstellen von Konfidenzintervallen und dergleichen.
Wenn Sie mehr Informationen über die Bevölkerung erhalten möchten, müssen Sie mehr Daten von der Bevölkerung sammeln.
quelle