Wohin Bootstrapping - kann jemand eine einfache Erklärung geben, um mich anzufangen?

9

Trotz mehrerer Versuche, über Bootstrapping zu lesen, scheine ich immer gegen eine Mauer zu stoßen. Ich frage mich, ob jemand eine einigermaßen nicht-technische Definition von Bootstrapping geben kann.

Ich weiß, dass es in diesem Forum nicht möglich ist, genügend Details bereitzustellen, damit ich es vollständig verstehen kann, aber ein sanfter Druck in die richtige Richtung mit dem Hauptziel und dem Mechanismus des Bootstrapings wäre sehr dankbar! Vielen Dank.

nonparametric bootstrap intuition pmgjones
quelle

8

Der Wikipedia-Eintrag zu Bootstrapping ist eigentlich sehr gut:

http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29

Der häufigste Grund für das Bootstrapping ist, wenn die Form der zugrunde liegenden Verteilung, aus der eine Stichprobe entnommen wird, unbekannt ist. Traditionell nehmen Statistiker eine Normalverteilung an (aus sehr guten Gründen im Zusammenhang mit dem zentralen Grenzwertsatz), aber Statistiken (wie Standardabweichung, Konfidenzintervalle, Leistungsberechnungen usw.), die über die Normalverteilungstheorie geschätzt werden, sind nur dann streng gültig, wenn die zugrunde liegende Populationsverteilung vorliegt normal.

Durch wiederholtes erneutes Abtasten der Stichprobe selbst ermöglicht das Bootstrapping Schätzungen, die unabhängig von der Verteilung sind. Traditionell wählt jede "Neuabtastung" der Originalstichprobe zufällig die gleiche Anzahl von Beobachtungen wie in der Originalstichprobe. Diese werden jedoch mit Ersatz ausgewählt. Wenn die Stichprobe N Beobachtungen enthält, enthält jede Bootstrap-Neuabtastung N Beobachtungen, wobei viele der ursprünglichen Stichproben wiederholt und viele ausgeschlossen werden.

Der interessierende Parameter (z. B. Odds Ratio usw.) kann dann aus jeder Bootstrap-Stichprobe geschätzt werden. Das 1000-fache Wiederholen des Bootstraps ermöglicht eine Schätzung des "Medians" und des 95% -Konfidenzintervalls für die Statistik (z. B. Odds Ratio) durch Auswahl des 2,5-, 50- und 97,5-Perzentils.

Thylacoleo
quelle

8

Der amerikanische Wissenschaftler hatte kürzlich einen schönen Artikel von Cosma Shalizi über den Bootstrap, der ziemlich einfach zu lesen ist und Ihnen das Wesentliche gibt, um das Konzept zu verstehen .

ars
quelle

7

Ganz allgemein: Die Intuition sowie der Ursprung des Namens ("sich an den Bootstraps hochziehen") ergeben sich aus der Beobachtung, dass bei der Verwendung der Eigenschaften einer Stichprobe Rückschlüsse auf eine Population gezogen werden (das "inverse" statistische Problem) Folgerung) erwarten wir zu irren. Um die Art dieses Fehlers herauszufinden, behandeln Sie die Stichprobe selbst als eigenständige Grundgesamtheit und untersuchen Sie, wie Ihr Inferenzverfahren funktioniert, wenn Sie Stichproben daraus ziehen. Das ist ein „Vorwärts“ Problem: Sie alles über Ihre Proben- wissen qua-Population und müssen nichts darüber raten. Ihre Studie wird vorschlagen, (a) inwieweit Ihr Inferenzverfahren verzerrt sein kann und (b) wie groß und wie der statistische Fehler Ihres Verfahrens ist. Verwenden Sie diese Informationen, um Ihre ursprünglichen Schätzungen anzupassen. In vielen (aber definitiv nicht allen) Situationen ist die angepasste Vorspannung asymptotisch viel geringer.

Eine Erkenntnis aus dieser schematischen Beschreibung ist, dass für das Bootstrapping keine Simulation oder wiederholte Unterabtastung erforderlich ist : Es handelt sich lediglich um Omnibus-Methoden, mit denen rechnerisch nachvollziehbar statistische Methoden untersucht werden können, wenn die Population bekannt ist. Es gibt viele Bootstrap-Schätzungen, die mathematisch berechnet werden können.

Diese Antwort hat Peter Halls Buch "The Bootstrap and Edgeworth Expansion" (Springer 1992) viel zu verdanken, insbesondere seiner Beschreibung des "Hauptprinzips" des Bootstrapings.

whuber
quelle

Ich mag diesen "originellen" Ansatz (für andere Einträge). Trotzdem fällt es mir immer schwer zu erklären, warum Bootstrap in der Praxis funktioniert ...

chl

4

Das Wiki zum Bootstrapping enthält die folgende Beschreibung:

Durch Bootstrapping können viele alternative Versionen der einzelnen Statistik erfasst werden, die normalerweise aus einer Stichprobe berechnet werden. Nehmen wir zum Beispiel an, wir interessieren uns für die Größe der Menschen weltweit. Da wir nicht die gesamte Bevölkerung messen können, nehmen wir nur einen kleinen Teil davon auf. Aus dieser Stichprobe kann nur ein Wert einer Statistik erhalten werden, dh ein Mittelwert oder eine Standardabweichung usw., und daher sehen wir nicht, wie stark diese Statistik variiert. Bei Verwendung von Bootstrapping extrahieren wir zufällig eine neue Stichprobe von n Höhen aus den N abgetasteten Daten, wobei jede Person höchstens t Mal ausgewählt werden kann. Auf diese Weise erstellen wir mehrmals eine große Anzahl von Datensätzen, die wir möglicherweise gesehen haben, und berechnen die Statistik für jeden dieser Datensätze. Somit erhalten wir eine Schätzung der Verteilung der Statistik.

Ich werde näher darauf eingehen, wenn Sie klarstellen können, welchen Teil der obigen Beschreibung Sie nicht verstehen.

quelle

4

Ich stelle es mir gerne wie folgt vor: Wenn Sie einen zufälligen Stichprobendatensatz aus einer Population erhalten, weist diese Stichprobe vermutlich Merkmale auf, die in etwa denen der Quellpopulation entsprechen. Wenn Sie also daran interessiert sind, Konfidenzintervalle für ein bestimmtes Merkmal der Verteilung zu erhalten, beispielsweise für die Schiefe, können Sie die Stichprobe als Pseudopopulation behandeln, aus der Sie viele Sätze zufälliger Pseudo-Stichproben erhalten können Wert des jeweils interessierenden Merkmals. Die Annahme, dass die ursprüngliche Stichprobe in etwa mit der Grundgesamtheit übereinstimmt, bedeutet auch, dass Sie die Pseudo-Stichproben erhalten können, indem Sie "mit Ersetzung" aus der Pseudo-Grundgesamtheit abtasten (z. B. Sie nehmen einen Wert ab, zeichnen ihn auf und setzen ihn dann zurück, also jeden Wert hat die Chance, mehrfach beobachtet zu werden.).

Mike Lawrence
quelle

3

Bootstrap ist im Wesentlichen eine Simulation eines sich wiederholenden Experiments. Nehmen wir an, Sie haben eine Schachtel mit Bällen und möchten eine durchschnittliche Größe eines Balls erhalten. Sie zeichnen also einige davon, messen und nehmen einen Mittelwert. Jetzt möchten Sie es wiederholen, um die Verteilung zu erhalten, beispielsweise um eine Standardabweichung zu erhalten - aber Sie haben herausgefunden, dass jemand die Box gestohlen hat.
Was Sie jetzt tun können, ist, das zu verwenden, was Sie haben - diese eine Reihe von Messungen. Die Idee ist, die Bälle in die neue Box zu legen und das ursprüngliche Experiment zu simulieren, indem die gleiche Anzahl von Bällen mit Ersatz gezeichnet wird - beide, um die gleiche Stichprobengröße und eine gewisse Variabilität zu haben. Dies kann nun viele Male wiederholt werden, um eine Reihe von Mitteln zu erhalten, mit denen schließlich die mittlere Verteilung angenähert werden kann.

quelle

3

Dies ist die Essenz des Bootstrapings: Nehmen Sie verschiedene Stichproben Ihrer Daten, erhalten Sie eine Statistik für jede Stichprobe (z. B. Mittelwert, Median, Korrelation, Regressionskoeffizient usw.) und verwenden Sie die Variabilität der Statistik über Stichproben hinweg, um etwas darüber anzuzeigen die Standardfehler- und Konfidenzintervalle für die Statistik. - Bootstrapping und das Bootpaket in R.

Jeromy Anglim
quelle

Wohin Bootstrapping - kann jemand eine einfache Erklärung geben, um mich anzufangen?

Antworten: