Der Wikipedia-Eintrag zu Bootstrapping ist eigentlich sehr gut:
http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29
Der häufigste Grund für das Bootstrapping ist, wenn die Form der zugrunde liegenden Verteilung, aus der eine Stichprobe entnommen wird, unbekannt ist. Traditionell nehmen Statistiker eine Normalverteilung an (aus sehr guten Gründen im Zusammenhang mit dem zentralen Grenzwertsatz), aber Statistiken (wie Standardabweichung, Konfidenzintervalle, Leistungsberechnungen usw.), die über die Normalverteilungstheorie geschätzt werden, sind nur dann streng gültig, wenn die zugrunde liegende Populationsverteilung vorliegt normal.
Durch wiederholtes erneutes Abtasten der Stichprobe selbst ermöglicht das Bootstrapping Schätzungen, die unabhängig von der Verteilung sind. Traditionell wählt jede "Neuabtastung" der Originalstichprobe zufällig die gleiche Anzahl von Beobachtungen wie in der Originalstichprobe. Diese werden jedoch mit Ersatz ausgewählt. Wenn die Stichprobe N Beobachtungen enthält, enthält jede Bootstrap-Neuabtastung N Beobachtungen, wobei viele der ursprünglichen Stichproben wiederholt und viele ausgeschlossen werden.
Der interessierende Parameter (z. B. Odds Ratio usw.) kann dann aus jeder Bootstrap-Stichprobe geschätzt werden. Das 1000-fache Wiederholen des Bootstraps ermöglicht eine Schätzung des "Medians" und des 95% -Konfidenzintervalls für die Statistik (z. B. Odds Ratio) durch Auswahl des 2,5-, 50- und 97,5-Perzentils.
Das Wiki zum Bootstrapping enthält die folgende Beschreibung:
Ich werde näher darauf eingehen, wenn Sie klarstellen können, welchen Teil der obigen Beschreibung Sie nicht verstehen.
quelle
Ich stelle es mir gerne wie folgt vor: Wenn Sie einen zufälligen Stichprobendatensatz aus einer Population erhalten, weist diese Stichprobe vermutlich Merkmale auf, die in etwa denen der Quellpopulation entsprechen. Wenn Sie also daran interessiert sind, Konfidenzintervalle für ein bestimmtes Merkmal der Verteilung zu erhalten, beispielsweise für die Schiefe, können Sie die Stichprobe als Pseudopopulation behandeln, aus der Sie viele Sätze zufälliger Pseudo-Stichproben erhalten können Wert des jeweils interessierenden Merkmals. Die Annahme, dass die ursprüngliche Stichprobe in etwa mit der Grundgesamtheit übereinstimmt, bedeutet auch, dass Sie die Pseudo-Stichproben erhalten können, indem Sie "mit Ersetzung" aus der Pseudo-Grundgesamtheit abtasten (z. B. Sie nehmen einen Wert ab, zeichnen ihn auf und setzen ihn dann zurück, also jeden Wert hat die Chance, mehrfach beobachtet zu werden.).
quelle
Bootstrap ist im Wesentlichen eine Simulation eines sich wiederholenden Experiments. Nehmen wir an, Sie haben eine Schachtel mit Bällen und möchten eine durchschnittliche Größe eines Balls erhalten. Sie zeichnen also einige davon, messen und nehmen einen Mittelwert. Jetzt möchten Sie es wiederholen, um die Verteilung zu erhalten, beispielsweise um eine Standardabweichung zu erhalten - aber Sie haben herausgefunden, dass jemand die Box gestohlen hat.
Was Sie jetzt tun können, ist, das zu verwenden, was Sie haben - diese eine Reihe von Messungen. Die Idee ist, die Bälle in die neue Box zu legen und das ursprüngliche Experiment zu simulieren, indem die gleiche Anzahl von Bällen mit Ersatz gezeichnet wird - beide, um die gleiche Stichprobengröße und eine gewisse Variabilität zu haben. Dies kann nun viele Male wiederholt werden, um eine Reihe von Mitteln zu erhalten, mit denen schließlich die mittlere Verteilung angenähert werden kann.
quelle
quelle