Angenommen, man führt den sogenannten nichtparametrischen Bootstrap durch, indem man aus den ursprünglichen Beobachtungen jeweils Stichproben der Größe mit Ersetzung zieht . Ich glaube, dieses Verfahren entspricht der Schätzung der kumulativen Verteilungsfunktion durch das empirische cdf:
http://en.wikipedia.org/wiki/Empirical_distribution_function
und dann Erhalten der Bootstrap-Abtastwerte durch Simulieren von Beobachtungen aus den geschätzten cdf Zeiten in einer Reihe.
Wenn ich damit recht habe, muss man sich mit dem Problem der Überanpassung befassen, da das empirische cdf ungefähr N Parameter hat. Natürlich konvergiert es asymptotisch zur Population cdf, aber was ist mit endlichen Stichproben? Wenn ich Ihnen zum Beispiel sagen würde, dass ich 100 Beobachtungen habe und das cdf mit zwei Parametern als einschätzen würde, wären Sie nicht beunruhigt. Wenn die Anzahl der Parameter jedoch auf 100 steigen würde, wäre dies überhaupt nicht sinnvoll.
Wenn man eine standardmäßige multiple lineare Regression anwendet, wird die Verteilung des Fehlerterms auf geschätzt . Wenn man sich entscheidet, auf das Bootstrapping der Residuen umzusteigen, muss man erkennen, dass es jetzt ungefähr Parameter gibt, die nur dazu verwendet werden, die Verteilung der Fehlerausdrücke zu handhaben.
Weisen Sie mich bitte an einige Quellen weiter, die sich ausdrücklich mit diesem Problem befassen, oder erklären Sie mir, warum es kein Problem ist, wenn Sie der Meinung sind, dass ich es falsch verstanden habe.
Antworten:
Ich bin nicht ganz sicher, ob ich Ihre Frage richtig verstehe. Ich gehe davon aus, dass Sie an der Reihenfolge der Konvergenz interessiert sind.
Haben Sie eine der Grundlagen der Bootstrap-Theorie gelesen? Das Problem ist, dass es ziemlich schnell (mathematisch) wild wird.
Auf jeden Fall empfehle ich einen Blick auf
van der Vaart "Asymptotische Statistik" Kapitel 23.
Hall "Bootstrap und Edgeworth Expansions"
für die Grundlagen.
Chernick "Bootstrap Methods" richtet sich eher an Benutzer als an Mathematiker, enthält jedoch einen Abschnitt zum Thema "Wo Bootstrap fehlschlägt".
Der klassische Efron / Tibshirani hat wenig Ahnung, warum Bootstrap tatsächlich funktioniert ...
quelle
Das Bootstrapping aus endlichen Stichproben unterschätzt intuitiv die starken Schwänze der zugrunde liegenden Verteilung. Das ist klar, da endliche Samples einen endlichen Bereich haben, selbst wenn der Bereich ihrer wahren Verteilung unendlich ist oder, noch schlimmer, schwere Schwänze hat. Das Verhalten der Bootstrap-Statistik wird also niemals so "wild" sein wie die ursprüngliche Statistik. Ähnlich wie bei der Vermeidung einer Überanpassung aufgrund zu vieler Parameter in der (parametrischen) Regression könnten wir eine Überanpassung vermeiden, indem wir die Normalverteilung mit wenigen Parametern verwenden.
Bearbeiten Sie die Antworten auf die Kommentare: Denken Sie daran, dass Sie nicht den Bootstrap benötigen, um die PDF-Datei zu schätzen. Normalerweise verwenden Sie den Bootstrap, um die Verteilung (im weitesten Sinne einschließlich Quantilen, Momenten, was auch immer benötigt wird) einer Statistik abzurufen. Sie haben also nicht unbedingt ein Überanpassungsproblem (in Bezug auf "die Schätzung aufgrund meiner endlichen Daten sieht zu schön aus im Vergleich zu dem, was ich mit der wahren wilden Verteilung sehen sollte"). Wie sich jedoch herausstellte (nach dem zitierten Aufsatz und dem Kommentar von Frank Harrel weiter unten), ist das Auftreten eines solchen Überpassungsproblems mit Problemen bei der parametrischen Schätzung derselben Statistik verbunden.
Wie Ihre Frage impliziert, ist Bootstrapping kein Allheilmittel gegen Probleme mit der parametrischen Schätzung. Die Hoffnung, dass der Bootstrap bei Parameterproblemen hilft, indem er die gesamte Distribution kontrolliert, ist falsch.
quelle
Eine Quelle der Intuition könnte der Vergleich der Konvergenzraten für parametrische CDFs mit ECDFs für ID-Daten sein.
In gewissem Sinne ist die Rate, mit der Sie mehr Stichproben erfassen müssen, gleich, unabhängig davon, ob Sie die CDF mit einer empirischen CDF schätzen oder ob Sie einen Parameter direkt mit einem Stichproben-Mittelwert-Schätzer schätzen. Dies könnte dazu beitragen, Frank Harrells Kommentar zu rechtfertigen: "Die Anzahl der effektiven Parameter entspricht nicht der Stichprobengröße."
Natürlich ist das nicht die ganze Geschichte. Obwohl sich die Raten nicht unterscheiden, sind es die Konstanten. Und der nichtparametrische Bootstrap bietet viel mehr als ECDFs - Sie müssen immer noch Dinge mit dem ECDF tun, wenn Sie es schätzen.
quelle