Ich habe kürzlich Bootstrapping verwendet, um die Konfidenzintervalle für ein Projekt zu schätzen. Jemand, der nicht viel über Statistiken weiß, hat mich kürzlich gebeten zu erklären, warum das Bootstrapping funktioniert, dh warum es immer wieder zu guten Ergebnissen führt, wenn dieselbe Stichprobe erneut abgetastet wird. Mir wurde klar, dass ich, obwohl ich viel Zeit damit verbracht hatte, zu verstehen, wie man es benutzt, nicht wirklich verstehe, warum Bootstrapping funktioniert.
Konkret: Wenn wir eine erneute Stichprobe erstellen, wie kommt es dann, dass wir etwas über die Grundgesamtheit lernen und nicht nur über die Stichprobe? Es scheint dort einen Sprung zu geben, der etwas kontraintuitiv ist.
Ich habe hier einige Antworten auf diese Frage gefunden, die ich halbwegs verstehe. Besonders dieser . Ich bin ein "Konsument" von Statistiken, kein Statistiker, und ich arbeite mit Leuten zusammen, die viel weniger über Statistiken wissen als ich. Kann also jemand mit einem Minimum an Verweisen auf Theoreme usw. die grundlegenden Überlegungen hinter dem Bootstrap erklären? Das heißt, wenn Sie es Ihrem Nachbarn erklären müssten, was würden Sie sagen?
quelle
Antworten:
Die mittlere Version, die ich normalerweise gebe, sieht folgendermaßen aus:
Sie möchten einer Bevölkerung eine Frage stellen, können dies aber nicht. Sie nehmen also eine Probe und stellen stattdessen die Frage. Nun, wie sicher Sie sein sollten, dass die Beispielantwort nahe an der Bevölkerungsantwort liegt, hängt offensichtlich von der Bevölkerungsstruktur ab. Eine Möglichkeit, dies zu erfahren, besteht darin, immer wieder Stichproben aus der Grundgesamtheit zu entnehmen, sie zu befragen und festzustellen, inwieweit die Stichprobenantworten in der Regel unterschiedlich sind. Da dies nicht möglich ist, können Sie entweder einige Annahmen über die Form der Population treffen oder die Informationen in der Stichprobe verwenden, die Sie tatsächlich kennenlernen müssen .
Stellen Sie sich vor, Sie entscheiden sich für Annahmen, z. B. dass es sich um Normal oder Bernoulli oder eine andere geeignete Fiktion handelt. Wenn Sie der vorherigen Strategie folgen, können Sie erneut herausfinden, inwieweit die Antwort auf Ihre Frage zu einer Stichprobe unterschiedlich ausfällt, je nachdem, welche Stichprobe Sie gerade erhalten haben, indem Sie wiederholt Stichproben mit derselben Größe wie die von Ihnen erstellte erstellen und diese nachfragen Frage. Dies ist unkompliziert, sofern Sie rechnerisch günstige Annahmen getroffen haben. (In der Tat können Sie mit besonders praktischen Annahmen und nicht-trivialer Mathematik den Sampling-Teil möglicherweise vollständig umgehen. Wir werden dies hier jedoch absichtlich ignorieren.)
Dies scheint eine gute Idee zu sein, vorausgesetzt, Sie sind glücklich, die Annahmen zu treffen. Stell dir vor, du bist es nicht. Eine Alternative besteht darin, die vorhandene Probe zu entnehmen und stattdessen eine Probe daraus zu entnehmen. Sie können dies tun, weil die Stichprobe auch eine Population ist, nur eine sehr kleine diskrete. Es sieht aus wie das Histogramm Ihrer Daten. Die Stichprobenentnahme "mit Ersatz" ist nur eine bequeme Methode, um die Stichprobe wie eine Population zu behandeln und sie so zu entnehmen, dass sie ihre Form widerspiegelt.
Dies ist sinnvoll , da Sie nicht nur die beste Stichprobe haben , sondern auch die einzigen Informationen darüber, wie die Grundgesamtheit tatsächlich aussieht, sondern auch, weil die meisten Stichproben, wenn sie nach dem Zufallsprinzip ausgewählt werden, ganz so aussehen wie die Bevölkerung, aus der sie kamen. Infolgedessen ist es wahrscheinlich, dass auch Sie es tun.
Für die Intuition ist es wichtig zu überlegen, wie Sie sich mit Variabilität vertraut machen können, indem Sie Stichprobeninformationen aggregieren, die auf verschiedene Arten und unter verschiedenen Annahmen generiert werden. Es ist wichtig, die Möglichkeit geschlossener mathematischer Lösungen vollständig zu ignorieren, um dies zu verdeutlichen.
quelle
+1 an @ConjugatePrior, ich möchte nur einen Punkt hervorheben, der in seiner Antwort impliziert ist. Die Frage lautet: "Wenn wir unsere Stichprobe erneut abtasten, wie kommt es dann, dass wir etwas über die Bevölkerung lernen und nicht nur über die Stichprobe?" Resampling wird nicht durchgeführt, um eine Schätzung der Bevölkerungsverteilung zu liefern - wir nehmen unsere Stichprobe selbst als Modell der Bevölkerung. Vielmehr erfolgt eine erneute Abtastung , um eine Schätzung der Stichprobenverteilung der fraglichen Stichprobenstatistik bereitzustellen .
quelle
Dies ist wahrscheinlich eine eher technische Erklärung für Leute, die sich mit Statistik und Mathematik auskennen (zumindest mit Kalkül). Hier ist eine Folie aus einem Kurs über Umfrage-Bootstraps, den ich vor einiger Zeit unterrichtet habe:
Wenn wir unser Stichprobenverfahren wiederholen könnten, könnten wir diese Verteilung erhalten und mehr erfahren. Nun, das übersteigt normalerweise unsere Möglichkeiten. jedoch, wenn
Wir können hoffen, dass das Bootstrap-Verfahren funktioniert. Wir geben nämlich vor, dass unsere Verteilung anstelle von ist und dass wir damit alle möglichen Samples unterhalten können - und es wird solche Samples geben, was nur für praktisch ist . Lassen Sie mich noch einmal wiederholen: Der Bootstrap erstellt die Stichprobenverteilung von um den "wahren" Parameter , und wir hoffen, dass diese Stichprobenverteilung unter den beiden oben genannten Bedingungen informativ ist über die Stichprobenverteilung von um :Fn() F() nn n≤5 θ^∗n θ^n θ^n θ
Anstatt nur einen Weg entlang der Pfeile zu gehen und einige Informationen / Genauigkeit entlang dieser Pfeile zu verlieren, können wir zurückgehen und etwas über die Variabilität von um sagen .θ nθ^∗n θ^n
Die obigen Bedingungen sind in Halls (1991) Buch äusserst technisch formuliert . Das von mir erwähnte Kalkülverständnis als Voraussetzung für das Starren auf dieser Folie ist die zweite Voraussetzung in Bezug auf die Glätte: In einer formaleren Sprache muss das funktionale eine schwache Ableitung besitzen. Die erste Bedingung ist natürlich eine asymptotische Aussage: Je größer Ihre Stichprobe, näher sollte an ; und die Abstände von zu sollten die gleiche Größenordnung haben wie jene von zu . Diese Bedingungen können brechen und sie brechenF n F θ * n θ n θ n θ FT Fn F θ^∗n θ^n θ^n θ in einer Reihe praktischer Situationen mit ausreichend seltsamen Statistiken und / oder Stichprobenplänen, die keine empirischen Verteilungen ergeben, die nahe genug an .F
Woher kommen diese 1000 Samples oder was auch immer die magische Zahl sein mag? Das liegt daran , dass wir nicht alle Samples zeichnen können , also nehmen wir nur eine zufällige Teilmenge davon. Die am weitesten rechts stehende „simulieren“ Pfeil Staaten eine andere Annäherung , die wir auf dem Weg sind , so dass die Verteilung der bekommen um , und das heißt , dass unsere Monte Carlo simulierten Verteilung von ist eine hinreichende Annäherung an die vollständige Bootstrap-Verteilung von um .θ n θ θ ( * r ) n θ * n θ nnn θ^n θ θ^(∗r)n θ^∗n θ^n
quelle
Ich beantworte diese Frage, weil ich einverstanden bin, dass dies schwierig ist und es viele Missverständnisse gibt. Efron und Diaconis versuchten dies 1983 in ihrem Artikel über Scientific American und meiner Meinung nach scheiterten sie. Es gibt mehrere Bücher, die sich dem Bootstrap widmen und gute Arbeit leisten. Efron und Tibshirani haben 1986 in ihrem Artikel in Statistical Science hervorragende Arbeit geleistet. Ich habe mich besonders bemüht, Bootstraps für Praktiker in meinem Bootstrap-Methodenbuch zugänglich zu machen, und meine Einführung in Bootstraps mit Anwendungen für R. Halls Buch ist großartig, aber sehr fortschrittlich und theoretisch . Tim Hesterberg hat ein großartiges Zusatzkapitel zu einem der einführenden Statistikbücher von David Moore geschrieben. Der verstorbene Clifford Lunneborg hatte ein schönes Buch. Chihara und Hesterberg haben kürzlich ein mathematisches Statistikbuch für Fortgeschrittene herausgebracht, das den Bootstrap und andere Resampling-Methoden behandelt. Sogar fortgeschrittene Bücher wie Lahiri's oder Shao and Tu's geben gute begriffliche Erklärungen. Manly kommt gut mit seinem Buch zurecht, das sich mit Permutationen und dem Bootstrap befasst. Es gibt keinen Grund mehr, sich über den Bootstrap Gedanken zu machen. Es ist wichtig zu beachten, dass der Bootstrap vom Bootstrap-Prinzip abhängt. "Das Sampling mit Ersetzung verhält sich im Original-Sample so wie das Original-Sample in einer Population. Es gibt Beispiele, in denen dieses Prinzip fehlschlägt. Es ist wichtig zu wissen, dass der Bootstrap funktioniert ist nicht die Antwort auf jedes statistische Problem. s geben gute begriffliche Erklärungen. Manly kommt gut mit seinem Buch zurecht, das sich mit Permutationen und dem Bootstrap befasst. Es gibt keinen Grund mehr, sich über den Bootstrap Gedanken zu machen. Es ist wichtig zu beachten, dass der Bootstrap vom Bootstrap-Prinzip abhängt. "Das Sampling mit Ersetzung verhält sich im Original-Sample so wie das Original-Sample in einer Population. Es gibt Beispiele, in denen dieses Prinzip fehlschlägt. Es ist wichtig zu wissen, dass der Bootstrap funktioniert ist nicht die Antwort auf jedes statistische Problem. s geben gute begriffliche Erklärungen. Manly kommt gut mit seinem Buch zurecht, das sich mit Permutationen und dem Bootstrap befasst. Es gibt keinen Grund mehr, sich über den Bootstrap Gedanken zu machen. Es ist wichtig zu beachten, dass der Bootstrap vom Bootstrap-Prinzip abhängt. "Das Sampling mit Ersetzung verhält sich im Original-Sample so wie das Original-Sample in einer Population. Es gibt Beispiele, in denen dieses Prinzip fehlschlägt. Es ist wichtig zu wissen, dass der Bootstrap funktioniert ist nicht die Antwort auf jedes statistische Problem. Stichproben mit Ersetzung verhalten sich in der ursprünglichen Stichprobe genauso wie die ursprüngliche Stichprobe in einer Grundgesamtheit. Es gibt Beispiele, bei denen dieses Prinzip versagt. Es ist wichtig zu wissen, dass der Bootstrap nicht die Antwort auf jedes statistische Problem ist. Stichproben mit Ersetzung verhalten sich in der ursprünglichen Stichprobe genauso wie die ursprüngliche Stichprobe in einer Grundgesamtheit. Es gibt Beispiele, bei denen dieses Prinzip versagt. Es ist wichtig zu wissen, dass der Bootstrap nicht die Antwort auf jedes statistische Problem ist.
Hier sind Amazon-Links zu allen Büchern, die ich erwähnt habe und mehr.
Mathematische Statistik mit Resampling und R
Bootstrap-Methoden und ihre Anwendung
Bootstrap-Methoden: Ein Leitfaden für Praktiker und Forscher
Eine Einführung in Bootstrap-Methoden mit Anwendungen zu R
Resampling-Methoden für abhängige Daten
Randomisierungs-, Bootstrap- und Monte-Carlo-Methoden in der Biologie
Eine Einführung in den Bootstrap
Die Praxis von Business Statistics Companion Kapitel 18: Bootstrap-Methoden und Permutationstests
Datenanalyse durch Resampling: Konzepte und Anwendungen
Das Jackknife, der Bootstrap und andere Resampling-Pläne
Das Jackknife und der Bootstrap
Permutations-, parametrische und Bootstrap-Tests von Hypothesen
Die Bootstrap- und Edgeworth-Erweiterung
quelle
Durch Bootstrapping nehmen Sie einfach immer wieder Proben aus derselben Datengruppe (Ihren Probendaten), um zu schätzen, wie genau Ihre Schätzungen über die gesamte Population (was wirklich in der realen Welt vorhanden ist) sind.
Wenn Sie eine Stichprobe entnehmen und Schätzungen für die tatsächliche Population vornehmen, können Sie möglicherweise nicht abschätzen, wie genau Ihre Schätzungen sind. Wir haben nur eine Schätzung und haben nicht festgestellt, wie diese Schätzung von den verschiedenen Stichproben abweicht, auf die wir möglicherweise gestoßen sind.
Beim Bootstrapping verwenden wir dieses Hauptbeispiel, um mehrere Beispiele zu generieren. Wenn wir beispielsweise den Gewinn jeden Tag über 1000 Tage messen, können wir zufällige Stichproben aus diesem Satz ziehen. Wir können den Gewinn von einem zufälligen Tag aufzeichnen, den Gewinn von einem anderen zufälligen Tag erhalten (der möglicherweise derselbe Tag ist wie zuvor - Probenahme mit Ersatz), ihn aufzeichnen und so weiter, bis wir ein "neues" Ergebnis erhalten. probe von 1000 tage (von der ursprünglichen probe).
Dieses "neue" Sample ist nicht mit dem Original-Sample identisch - in der Tat können wir mehrere "neue" Samples wie oben erzeugen. Wenn wir uns die Abweichungen bei den Mitteln und Schätzungen ansehen, können wir ablesen, wie genau die ursprünglichen Schätzungen waren.
Bearbeiten - als Antwort auf einen Kommentar
Die "neueren" Stichproben stimmen nicht mit der ersten überein, und die darauf basierenden neuen Schätzungen werden variieren. Dies simuliert wiederholte Stichproben der Population. Die Schwankungen der Schätzungen der "neueren" Stichproben, die vom Bootstrap generiert werden, geben Aufschluss darüber, wie die Stichprobenschätzungen bei unterschiedlichen Stichproben aus der Grundgesamtheit variieren würden. Auf diese Weise können wir versuchen, die Genauigkeit der ursprünglichen Schätzungen zu messen.
Anstelle von Bootstrapping können Sie natürlich auch mehrere neue Stichproben aus der Population ziehen, was jedoch möglicherweise nicht möglich ist.
quelle
Mir ist klar, dass dies eine alte Frage mit einer akzeptierten Antwort ist, aber ich möchte meine Sicht der Bootstrap-Methode erläutern. Ich bin in keiner Weise ein Experte (eher ein Statistikbenutzer, wie das OP) und freue mich über Korrekturen oder Kommentare.
Sie können stattdessen alle Teilmengen der Größe 98 berücksichtigen und JK-2 (2 Elemente gelöscht) oder JK-3 usw. erhalten.
Nun ist Bootstrap nur eine zufällige Version davon. Durch erneutes Abtasten durch Auswahl mit Ersetzungen würden Sie eine zufällige Anzahl von Elementen (möglicherweise keine) "löschen" und sie durch ein (oder mehrere) Replikate "ersetzen".
Durch Ersetzen durch Replikate hat der neu abgetastete Datensatz immer die gleiche Größe. Bei jackknife können Sie fragen, wie sich jackknifing auf Proben der Größe 99 statt 100 auswirkt. Wenn die Probengröße jedoch "ausreichend groß" ist, ist dies wahrscheinlich kein Problem.
In jackknife mischen Sie niemals delete-1 und delete-2 usw., um sicherzustellen, dass die geschätzten Werte von Samples gleicher Größe stammen.
Sie können auch in Betracht ziehen, die Stichprobe der Größe 100 in z. B. 10 Stichproben der Größe 10 aufzuteilen. Dies wäre in einigen theoretischen Aspekten sauberer (unabhängige Teilmengen), verringert jedoch die Stichprobengröße (von 100 auf 10) so sehr, dass sie (in den meisten Fällen) unpraktisch ist Fälle).
Sie können auch überlappende Untermengen einer bestimmten Größe in Betracht ziehen. All dies wird von der Bootstrap-Methode automatisch, gleichmäßig und zufällig behandelt.
Mit der Bootstrap-Methode erhalten Sie eine Schätzung der Stichprobenverteilung Ihrer Statistik aus der empirischen Verteilung der Originalstichprobe, sodass Sie neben dem Standardfehler weitere Eigenschaften der Statistik analysieren können.
quelle
Um Fox zu umschreiben, möchte ich zunächst sagen, dass der Prozess des wiederholten Resamplings aus Ihrer beobachteten Stichprobe den Prozess der ursprünglichen Stichprobe aus der gesamten Population nachahmt.
quelle
Eine endliche Stichprobe der Population approximiert die Verteilung genauso wie ein Histogramm sie approximiert. Durch erneutes Abtasten wird jede Binzahl geändert und Sie erhalten eine neue Annäherung. Große Zählwerte schwanken weniger als kleine Zählwerte sowohl in der ursprünglichen Grundgesamtheit als auch im Stichprobensatz. Da Sie dies einem Laien erklären, können Sie argumentieren, dass dies für große Lagerplatzzahlen in beiden Fällen ungefähr die Quadratwurzel der Lagerplatzzahl ist.
Ich denke, es ist wichtig zu betonen, dass der Bootstrap keine "neuen" Daten aufdeckt, sondern nur eine bequeme, nicht parametrische Möglichkeit ist, die Schwankungen von Stichprobe zu Stichprobe näherungsweise zu bestimmen, wenn die wahre Wahrscheinlichkeit durch die Stichprobe gegeben ist.
quelle
Beachten Sie, dass in der klassischen Inferenzstatistik die Stichprobenverteilung (alle möglichen Stichproben, die aus der Grundgesamtheit gezogen werden könnten) die theoretische Einheit ist, die eine Stichprobe als guten Schätzer für die Grundgesamtheit mit der Grundgesamtheit verbindet. Die Bootstrap-Methode erstellt eine Art Stichprobenverteilung (eine Verteilung, die auf mehreren Stichproben basiert). Sicher, es ist eine Maximum-Likelihood-Methode, aber die Grundlogik unterscheidet sich nicht so sehr von der traditionellen Wahrscheinlichkeitstheorie hinter der klassischen normalverteilungsbasierten Statistik.
quelle
Mein Punkt ist sehr winzig.
Bootstrap funktioniert, weil es die Grundvoraussetzung unserer Forschungsagenda rechenintensiv ausnutzt.
Um genauer zu sein, in der Statistik, in der Biologie oder in den meisten nicht-theoretischen Wissenschaften studieren wir Individuen und sammeln so Proben.
Aus solchen Beispielen wollen wir jedoch Rückschlüsse auf andere Personen ziehen, die uns in Zukunft oder in anderen Beispielen präsentiert werden.
Mit Bootstrap können wir, indem wir unsere Modellierung explizit auf die einzelnen Komponenten unserer Stichprobe stützen, (normalerweise mit weniger Annahmen) besser auf andere Personen schließen und diese vorhersagen.
quelle
Wenn ich Anfängern erkläre, halte ich es für hilfreich, ein konkretes Beispiel zu nehmen ...
Stellen Sie sich vor, Sie haben eine zufällige Stichprobe von 9 Messungen aus einer Population. Der Mittelwert der Stichprobe beträgt 60. Können wir sicher sein, dass der Durchschnitt der Gesamtbevölkerung ebenfalls 60 beträgt? Natürlich nicht, weil kleine Stichproben variieren, daher ist die Schätzung von 60 wahrscheinlich ungenau. Um herauszufinden, wie viele Beispiele davon abweichen, können wir einige Experimente durchführen - mit einer Methode namens Bootstrapping.
Die erste Zahl in der Stichprobe ist 74 und die zweite 65. Stellen wir uns also eine große "vorgetäuschte" Population vor, die aus einer neunten 74, einer neunten 65 und so weiter besteht. Der einfachste Weg, eine Zufallsstichprobe aus dieser Grundgesamtheit zu ziehen, besteht darin, eine zufällige Zahl aus der Stichprobe von neun zu ziehen und sie dann zu ersetzen, sodass Sie wieder die ursprüngliche Stichprobe von neun haben und eine andere zufällig auswählen, und so weiter, bis Sie eine haben "resample" von 9. Als ich dies tat, erschienen 74 überhaupt nicht, aber einige der anderen Zahlen erschienen zweimal und der Mittelwert war 54,4. (Dies wird in der Tabelle unter http://woodm.myweb.port.ac.uk/SL/resample.xlsx eingerichtet. Klicken Sie auf die Registerkarte "Bootstrap" am unteren Bildschirmrand.)
Als ich 1000 Resamples auf diese Weise gemacht habe, variierten ihre Mittelwerte von 44 bis 80, wobei 95% zwischen 48 und 72 lagen. Dies deutet darauf hin, dass ein Fehler von bis zu 16-20 Einheiten vorliegt (44 liegt 16 unter dem vorgetäuschten Bevölkerungsmittelwert von 60). 80 ist 20 Einheiten oben) bei der Verwendung von Stichproben der Größe 9, um den Populationsmittelwert zu schätzen. und dass wir zu 95% sicher sein können, dass der Fehler 12 oder weniger beträgt. Wir können also zu 95% davon ausgehen, dass der Bevölkerungsmittelwert zwischen 48 und 72 liegt.
Es gibt eine Reihe von Annahmen, von denen die naheliegend ist, dass die Stichprobe ein nützliches Bild der Grundgesamtheit liefert. Erfahrungsgemäß funktioniert dies im Allgemeinen gut, sofern die Stichprobe angemessen groß ist (9 ist ein bisschen klein, erleichtert aber die Stichprobe) sehen, was los ist). In der Tabelle unter http://woodm.myweb.port.ac.uk/SL/resample.xlsx können Sie einzelne Resamples anzeigen, Histogramme von 1000 Resamples zeichnen, mit größeren Samples experimentieren usw. Der Artikel enthält eine ausführlichere Erläuterung unter https://arxiv.org/abs/1803.06214 .
quelle