Warum ist Bootstrapping sinnvoll?

13

Wenn Sie lediglich eine erneute Stichprobe aus der empirischen Verteilung ziehen, warum nicht einfach die empirische Verteilung studieren? Warum nicht einfach die Variabilität aus der empirischen Verteilung quantifizieren, anstatt die Variabilität durch wiederholte Probenahme zu untersuchen?

ztyh
quelle
6
" (In diesem Sinne) stellt die Bootstrap-Verteilung eine (ungefähre) nichtparametrische, nichtinformative posteriore Verteilung für unseren Parameter dar. Diese Bootstrap-Verteilung wird jedoch schmerzlos erhalten - ohne dass formal ein Vorgänger angegeben werden muss und ohne dass eine Stichprobe aus der posterioren Verteilung erstellt werden muss. Daher man könnte die Bootstrap-Verteilung als Bayes posterior eines "armen Mannes" betrachten. "Hastie et al. Die Elemente des statistischen Lernens ". Abschn. 8.4.
usεr11852 sagt Reinstate Monic
8
Wie würden wir die Unsicherheit unserer Schätzungen aus der empirischen Verteilung quantifizieren?
usεr11852 sagt Reinstate Monic
2
"Unter milden Regularitätsbedingungen liefert der Bootstrap eine Annäherung an die Verteilung eines Schätzers oder einer Teststatistik, die mindestens so genau ist wie die Annäherung, die aus der asymptotischen Theorie erster Ordnung erhalten wird." unc.edu/~saraswat/teaching/econ870/fall11/JH_01.pdf .
Jbowman
10
Sie streiten und versuchen nicht zu verstehen. Glauben Sie mir, Sie sind nicht zu der Erkenntnis gelangt, dass der Bootstrap im Gegensatz zu dem vieler Tausender Statistiker über vier oder mehr Jahrzehnte wertlos ist. Sie haben das Zitat nicht sorgfältig gelesen. Ich denke, Sie haben es nicht verstanden, welche Schlüsselrolle die Zufälligkeit in der Statistik spielt. Aussagen wie "Warum sich die Mühe machen !!" in Bezug auf "eine Verteilung von sind ... gelinde gesagt ungewöhnlich. Wenn Sie es nicht für wichtig halten, die Verteilung Ihrer Schätzungen zu verstehen, sollten Sie sich überlegen, warum das Gebiet der Statistik existiert überhaupt, und überdenken Sie das.T(X)
Jbowman
4
@ztyh Sie sagen "Wenn Sie jedes Sample auf T ( X ) abbilden, erhalten Sie eine Verteilung von T ( X ) ". Vielleicht sollten Sie darüber nachdenken, wie würden Sie einen einzelnen Punkt X i auf T ( X ) = ˉ X abbilden ? Oder irgendeine Funktion T ( X 1 , X 2 , X n ) für diese Angelegenheit. XT(X)T(X)XiT(X)=X¯T(X1,X2,Xn)
Knrumsey

Antworten:

18

Bootstrapping (oder ein anderes Resampling) ist eine experimentelle Methode, um die Verteilung einer Statistik abzuschätzen.

Dies ist eine sehr einfache und unkomplizierte Methode (es bedeutet lediglich, dass Sie mit vielen zufälligen Varianten der Probendaten rechnen, um eine Schätzung der gewünschten Verteilung der Statistik zu erhalten).

Sie verwenden es höchstwahrscheinlich, wenn der theoretische / analytische Ausdruck zu schwierig zu erhalten / zu berechnen ist (oder wie Aksakal sagt, manchmal sind sie unbekannt).

  • Beispiel 1: Wenn Sie eine pca-Analyse durchführen und die Ergebnisse mit 'Schätzungen der Abweichung der Eigenwerte' vergleichen möchten , unter der Annahme, dass die Variablen keine Korrelation aufweisen.

    Sie können die Daten viele Male verschlüsseln und die pca-Eigenwerte neu berechnen, sodass Sie eine Verteilung (basierend auf Zufallstests mit den Beispieldaten) für die Eigenwerte erhalten.

    Beachten Sie, dass die aktuellen Praktiken einen Geröllplot betrachten und Faustregeln anwenden, um zu „entscheiden“, ob ein bestimmter Eigenwert signifikant / wichtig ist oder nicht.

  • Beispiel 2: Sie haben eine nichtlineare Regression y ~ f (x) durchgeführt, um eine Schätzung der Parameter für die Funktion f zu erhalten. Nun möchten Sie den Standardfehler für diese Parameter kennen.

    Ein einfacher Blick auf die Residuen und die lineare Algebra wie in OLS ist hier nicht möglich. Eine einfache Möglichkeit besteht jedoch darin, dieselbe Regression mit den erneut verwürfelten Residuen / Fehlern viele Male zu berechnen, um eine Vorstellung davon zu erhalten, wie sich die Parameter ändern würden (vorausgesetzt, die Verteilung für den Fehlerterm kann anhand der beobachteten Residuen modelliert werden).


Geschrieben von StackExchangeStrike

Sextus Empiricus
quelle
2
Ich denke dein Beispiel ist kein Bootstrap. Es ist nur eine Stichprobe aus einer bekannten Nullverteilung. Bootstrap ist der Ort, an dem Sie eine Probe haben und von dieser Probe wiederholt abtasten.
Ztyh
3
In Ihrer Frage stellen Sie sich vor, die Varianz einer Stichprobe zu berechnen, was in der Tat einfach ist und kein Bootstrapping erfordert. In meinem Beispiel spreche ich von einer Situation, in der wir einen Wert haben, der sich aus der Stichprobe ergibt. Dann können wir nicht mehr einfach eine Varianz berechnen, sondern möchten wissen, wie sie sich verändert. Durch mehrmaliges Verwürfeln der Daten und Neuberechnen der pca-Eigenwerte können Sie solche Verteilungsdaten (Zufallsdaten) erhalten, die der Verteilung Ihrer Stichprobe folgen. Wenn ich mich nicht täusche dies ist Bootstrapping genannt.
Sextus Empiricus
Ok, ich sehe, wo ich Dinge falsch verstanden habe. Ihr Beispiel macht Sinn. Vielen Dank.
Ztyh
8

Der Schlüssel ist, dass es beim Bootstrap nicht wirklich darum geht, Merkmale der Verteilung der Daten herauszufinden, sondern vielmehr Merkmale eines Schätzers , der auf die Daten angewendet wird.

So etwas wie die empirische Verteilungsfunktion gibt Ihnen einen recht guten Überblick über die CDF, aus der die Daten stammen. Wenn Sie es jedoch isolieren, erfahren Sie im Wesentlichen nichts darüber, wie zuverlässig die Schätzer sind, die wir aus diesen Daten erstellen. Dies ist die Frage, die mithilfe von Bootstrap beantwortet wurde.

Cliff AB
quelle
1
Das (nicht-parametrische) Bootstrap zu verwenden, um "die Verteilung der Daten" zu finden, wäre ein Lachen: Es kommt nur auf die empirische Verteilungsfunktion zurück, die genau die Datenmenge ist, mit der der Analytiker begonnen hat. Erinnert mich an die College-Algebra, als ich "nach X lösen" und "X = X" finden würde.
AdamO
3

WENN Sie genau wissen, was die zugrunde liegende Verteilung ist, müssen Sie sie nicht studieren. In den Naturwissenschaften kennt man manchmal genau die Verteilung.

WENN Sie den Typ der Verteilung kennen, müssen Sie nur ihre Parameter abschätzen und in dem von Ihnen beabsichtigten Sinne untersuchen. Beispielsweise wissen Sie manchmal a priori, dass die zugrunde liegende Verteilung normal ist. In einigen Fällen wissen Sie sogar, was es bedeutet. Normalerweise muss also nur noch die Standardabweichung ermittelt werden. Sie erhalten die Standardabweichung der Stichprobe und voila die zu untersuchende Verteilung.

WENN Sie nicht wissen, was die Verteilung ist, aber denken, dass es sich um eine der mehreren in der Liste handelt, können Sie versuchen, diese Verteilung an die Daten anzupassen und diejenige auszuwählen, die am besten passt. Dann studierst du diese Verteilung.

SCHLIESSLICH wissen Sie oft nicht, mit welcher Art von Distribution Sie es zu tun haben. Und Sie haben keinen Grund zu der Annahme, dass es zu einer von 20 Distributionen gehört, in die R Ihre Daten einpassen kann. Was wirst du machen? Ok, du siehst mittlere und Standardabweichungen an, nett. Aber was ist, wenn es sehr schief ist? Was ist, wenn die Kurtosis sehr groß ist? und so weiter. Sie müssen wirklich alle Momente der Verteilung kennen , um sie zu kennen und zu studieren. In diesem Fall ist also nicht-parametrisches Bootstrapping praktisch. Sie nehmen nicht viel an und probieren es einfach aus, dann studieren Sie seine Momente und andere Eigenschaften.

Obwohl nicht-parametrisches Bootstrapping kein magisches Werkzeug ist, hat es Probleme. Zum Beispiel kann es voreingenommen sein. Ich denke, parametrisches Bootstrapping ist unvoreingenommen

Aksakal
quelle
1
Ich denke, auch wenn Sie die wahre Verteilung nicht kannten, sind viele Momente einfach zu berechnen. Ich denke also, das Problem ist nicht, nicht zu wissen, mit welcher Art von Distribution Sie es zu tun haben. Es geht vielmehr darum, welche Art von Statistik Sie untersuchen möchten. Einige Statistiken sind möglicherweise schwer zu berechnen und nur dann ist Bootstrap nützlich.
Ztyh
Wie in dem Kommentar zu der Frage an usεr11852, habe ich tatsächlich Zweifel an den Vorteilen in Bezug auf die Berechenbarkeit von Statistiken sowie ...
Ztyh
Eigentlich denke ich, es ist immer noch ein Kinderspiel. Sie ordnen jedes Sample zuln(x3+x)
1
Quantil war ein dummes Beispiel, das gebe ich dir. versuche stattdessen meine. in meiner Praxis muss ich prognostizierenxzf(x,z)x,z
1
fxzf(x,z)