Ist es möglich, den Bootstrap aus Bayes-Sicht zu interpretieren?

43

Ok, das ist eine Frage, die mich nachts wach hält.

Kann die Bootstrap-Prozedur so interpretiert werden, dass sie einer Bayes'schen Prozedur nahekommt (mit Ausnahme der Bayes'schen Bootstrap-Prozedur)?

Mir gefällt die bayesianische "Interpretation" von Statistiken sehr gut, die ich für kohärent und leicht verständlich halte. Ich habe jedoch auch eine Schwäche für das Bootstrap-Verfahren, das so einfach ist, aber in vielen Situationen vernünftige Schlussfolgerungen liefert. Mit dem Bootstrapping wäre ich jedoch zufriedener, wenn ich wüsste, dass das Bootstrap in gewisser Weise einer posterioren Verteilung entspricht.

Ich kenne den "Bayesian Bootstrap" (Rubin, 1981), aber aus meiner Sicht ist diese Version des Bootstraps genauso problematisch wie der Standard-Bootstrap. Das Problem ist die eigentümliche Modellannahme, die Sie sowohl beim klassischen als auch beim bayesianischen Bootstrap machen, dh die möglichen Werte der Verteilung sind nur die Werte, die ich bereits gesehen habe. Wie können diese seltsamen Modellannahmen immer noch die sehr vernünftigen Schlussfolgerungen liefern, die Bootstrap-Prozeduren liefern? Ich habe nach Artikeln gesucht, die die Eigenschaften des Bootstraps untersucht haben (z. B. Weng, 1989), aber ich habe keine klare Erklärung gefunden, mit der ich zufrieden bin.

Verweise

Donald B. Rubin (1981). Der Bayesianische Stiefelriemen. Ann. Statist. Band 9, Nummer 1, 130-134.

Chung-Sing Weng (1989). Auf einer asymptotischen Eigenschaft zweiter Ordnung des Bayesian Bootstrap Mean. The Annals of Statistics . 17, No. 2, S. 705-710.

Rasmus Bååth
quelle
3
Ich habe gerade einen Blog-Beitrag über "den Bootstrap als Bayes'sches Modell" geschrieben ( sumsar.net/blog/2015/04/… ), der Bayes'sche "Erklärungen" des Bootstraps untersucht. Es beantwortet die obigen Fragen nicht direkt, aber ich hoffe, es macht klarer, was der Bootstrap ist und was er tut.
Rasmus Bååth
Lesen Sie die bayesianischen nichtparametrischen Inferenz- und Bootstrap-Techniken von muliere und secchi (1996). Sie sprechen genau Ihren Punkt an!

Antworten:

30

Abschnitt 8.4 der Elemente des statistischen Lernens von Hastie, Tibshirani und Friedman lautet "Beziehung zwischen dem Bootstrap und der Bayes'schen Folgerung". Das könnte genau das sein, wonach Sie suchen. Ich glaube, dass dieses Buch über eine Stanford-Website frei verfügbar ist, obwohl ich den Link nicht zur Hand habe.

Bearbeiten:

Hier ist ein Link zu dem Buch, das die Autoren online frei zugänglich gemacht haben:

http://www-stat.stanford.edu/~tibs/ElemStatLearn/

Auf Seite 272 schreiben die Autoren:

In diesem Sinne stellt die Bootstrap-Verteilung eine (ungefähre) nichtparametrische, nicht informative hintere Verteilung für unseren Parameter dar. Diese Bootstrap-Verteilung wird jedoch schmerzlos erhalten - ohne dass zuvor eine formelle Angabe gemacht werden muss und ohne dass eine Stichprobe aus der posterioren Verteilung gezogen werden muss. Daher können wir uns die Bootstrap-Verteilung als Bayes posterior eines "armen Mannes" vorstellen. Durch die Störung der Daten nähert sich der Bootstrap dem Bayes'schen Effekt der Störung der Parameter an und ist in der Regel viel einfacher durchzuführen.

Ein weiteres Puzzlestück findet sich in dieser kreuzvalidierten Frage, in der die Dvoretzky-Kiefer-Wolfowitz-Ungleichung erwähnt wird , [...] die zeigt, dass die empirische Verteilungsfunktion mit exponentiell hoher Wahrscheinlichkeit gleichförmig zur wahren Verteilungsfunktion konvergiert.

Alles in allem könnte der nicht-parametrische Bootstrap als eine asymptotische Methode angesehen werden, die "eine (ungefähre) nichtparametrische, nicht-informative posteriore Verteilung für unseren Parameter" erzeugt und bei zunehmender Anzahl von Abtastungen "exponentiell schnell" besser wird.

EdM
quelle
3
Wir sind immer für Hinweise auf relevantes Material dankbar, aber diese Antwort würde sich erheblich verbessern, wenn eine kurze Zusammenfassung dieses Abschnitts enthalten wäre.
Kardinal
1
Das letzte Bit aus diesem Abschnitt ist möglicherweise nützlicher: Der Bootstrap ist eine ungefähre nicht parametrische, nicht informative hintere Verteilung für den geschätzten Parameter. Der ganze Abschnitt ist eine Lektüre wert.
Fraijo
2
Danke für den Link! Wenn ich Hastie et al. Richtig, sie zeigen eine Entsprechung zwischen dem nicht-parametrischen Boostrap und dem Bayes'schen Bootstrap und behaupten, dass ersteres dem letzteren nahekommt. Sie schreiben nicht viel darüber, warum der Bootstrap (bayesianisch oder nicht) überhaupt zu vernünftigen Schlussfolgerungen führt. Was ich gehofft habe, war etwas wie: "Unter [einigen allgemeinen Umständen] nähert sich der Bootstrap der tatsächlichen hinteren Verteilung der Parameter / Statistiken mit einem Fehler, der [etwas] ist und von [diesem und jenem] abhängt."
Rasmus Bååth
Vielen Dank für die Hilfe bei der Verbesserung meiner Antwort. Die klarste Erklärung, die ich für die Funktionsweise des Bootstraps gehört habe, ist, dass die gerade gesammelte Stichprobe die beste Darstellung Ihrer Gesamtbevölkerung ist. Aber ich bin kein ausreichender Probabilist, um das formeller auszudrücken.
EdM
Wenn ich mich recht erinnere, machen sie dieses Argument, booten eine NN und lassen sich von einer vollständig bayesianischen NN von Radford Neal eincremen. Ich denke, das sagt etwas, aber ich weiß nicht, was.
Kerl
3

Dies ist das neueste Papier, das ich zu diesem Thema gesehen habe:

@article{efr13bay,
author={Efron, Bradley},
title={Bayesian inference and the parametric bootstrap},
journal={Annals of Applied Statistics},
volume=6,
number=4,
pages={1971-1997},
year=2012,
doi={10.1214/12-AOAS571},
abstract={Summary: The parametric bootstrap can be used for the efficient
    computation of Bayes posterior distributions. Importance sampling formulas
    take on an easy form relating to the deviance in exponential families and
    are particularly simple starting from Jeffreys invariant prior. Because of
    the i.i.d. nature of bootstrap sampling, familiar formulas describe the
    computational accuracy of the Bayes estimates. Besides computational
    methods, the theory provides a connection between Bayesian and frequentist
    analysis. Efficient algorithms for the frequentist accuracy of Bayesian
    inferences are developed and demonstrated in a model selection example.},
keywords={Jeffreys prior; exponential families; deviance; generalized linear
    models},
classmath={*62F15 (Bayesian inference)
62F40 (Resampling methods)
62J12 (Generalized linear models)
65C60 (Computational problems in statistics)}}
Frank Harrell
quelle
2
Meine Interpretation des Papiers ist, dass es eine Bootstrap-Methode zur Berechnung der posterioren Verteilung eines bestimmten Modells beschreibt. Diese Methode kann z. B. anstelle von Metropolis-Sampling verwendet werden. Ich sehe nicht, dass das Papier den Zusammenhang zwischen den nicht-parametrischen Bootstrap-Modellannahmen und der Bayes'schen Schätzung diskutiert ...
Rasmus Bååth
1
Es behauptet, das zu tun. Ich habe die Zeitung nicht im Detail gelesen.
Frank Harrell
5
Frank: Ich habe nicht viel davon mitbekommen, diesen Artikel von Efron zu lesen - was er tut, kann nur als ein Sampler von sequenzieller Bedeutung angesehen werden, der von der Wahrscheinlichkeit ausgeht und versucht, zum posterior zu gelangen (was oft funktioniert). Rubins Absicht in der Zeitung von 1981 war es, die Angemessenheit des Bootstraps in Frage zu stellen, aber Efrons Ansicht war offenbar gegenteilig. David Draper hat es in diesem Sommer in seinem JSM-Kurs noch einmal wiederholt und es als schlecht eingestuft, außer wenn Sie die meisten Möglichkeiten in der Stichprobe sehen. Aber siehe hier normaldeviate.wordpress.com/2013/06/12/…
Phaneron
1

Auch ich war von Bootstrapping und Bayes 'Theorem verführt, aber ich konnte die Rechtfertigungen von Bootstrapping nicht verstehen, bis ich es aus Bayes'scher Perspektive betrachtete. Dann kann - wie ich weiter unten erläutere - die Bootstrap-Verteilung als eine Bayes'sche posteriore Verteilung angesehen werden, die die (a?) Begründung für das Bootstrapping offensichtlich macht und auch den Vorteil hat, die getroffenen Annahmen zu klären. Weitere Einzelheiten zu dem folgenden Argument und den getroffenen Annahmen finden Sie unter https://arxiv.org/abs/1803.06214 (Seiten 22-26).

Angenommen, wir haben ein Beispiel in der Tabelle unter http://woodm.myweb.port.ac.uk/SL/resample.xlsx (klicken Sie auf die Registerkarte bootstrap am unteren Bildschirmrand) Eine Stichprobe von 9 Messungen mit einem Mittelwert von 60. Als ich die Tabelle zur Erstellung von 1000 Resamples mit Ersatz aus dieser Stichprobe verwendete und die Mittelwerte auf die nächste gerade Zahl abrundete, waren 82 dieser Mittelwerte 54. Die Idee von Bootstrapping ist, dass wir Verwenden Sie die Stichprobe als "vorgetäuschte" Grundgesamtheit, um festzustellen, wie unterschiedlich die Mittelwerte der Stichproben von 9 wahrscheinlich sind. Dies deutet darauf hin, dass die Wahrscheinlichkeit eines Stichprobenmittelwerts 6 unter dem Grundgesamtheitsmittelwert liegt (in diesem Fall die vorgetäuschte Grundgesamtheit basierend auf dem Stichprobe mit einem Mittelwert von 60) beträgt 8,2%. Und wir können zu einer ähnlichen Schlussfolgerung über die anderen Balken im Resampling-Histogramm kommen.

Stellen wir uns nun vor, die Wahrheit ist, dass der Mittelwert der realen Bevölkerung 66 beträgt. Wenn dies der Fall ist, beträgt unsere Schätzung der Wahrscheinlichkeit, dass der Stichprobenmittelwert 60 (dh die Daten) beträgt, 8,2% (unter Verwendung der Schlussfolgerung im obigen Absatz) dass 60 6 unter dem hypothetischen Populationsmittel von 66 liegt). Schreiben wir das als

P (Daten angegeben Mittelwert = 66) = 8,2%

und diese Wahrscheinlichkeit entspricht einem x-Wert von 54 in der Neuabtastungsverteilung. Dieselbe Art von Argument gilt für jeden möglichen Populationsmittelwert von 0, 2, 4 ... 100. Die Wahrscheinlichkeit ergibt sich jeweils aus der Resampling-Verteilung - diese Verteilung spiegelt sich jedoch über den Mittelwert von 60 wider.

Wenden wir nun den Satz von Bayes an. Die fragliche Messung kann nur Werte zwischen 0 und 100 annehmen, so dass auf die nächste gerade Zahl gerundet die Möglichkeiten für den Populationsmittelwert 0, 2, 4, 6, ... 100 sind. Wenn wir annehmen, dass die vorherige Verteilung flach ist, hat jede von diesen eine vorherige Wahrscheinlichkeit von 2% (bis 1 dp), und der Satz von Bayes sagt uns, dass

P (PopMean = 66 gegebene Daten) = 8,2% * 2% / P (Daten)

wo

P (Daten) = P (PopMean = 0 gegebene Daten) * 2% + P (PopMean = 2 gegebene Daten) * 2% + ... + P (PopMean = 100 gegebene Daten) * 2%

Wir können jetzt die 2% stornieren und uns daran erinnern, dass die Summe der Wahrscheinlichkeiten 1 sein muss, da die Wahrscheinlichkeiten einfach die aus der Resampling-Verteilung sind. Was uns zu dem Schluss bringt, dass

P (PopMean = 66) = 8,2%

Wenn man bedenkt, dass 8,2% die Wahrscheinlichkeit aus der Neuabtastungsverteilung ist, die 54 entspricht (anstelle von 66), ist die hintere Verteilung einfach die Neuabtastungsverteilung, die sich über den Probenmittelwert (60) widerspiegelt. Wenn die Neuabtastungsverteilung in dem Sinne symmetrisch ist, dass Asymmetrien zufällig sind - wie in diesem und vielen anderen Fällen -, können wir die Neuabtastungsverteilung als identisch mit der posterioren Wahrscheinlichkeitsverteilung annehmen.

Dieses Argument geht von verschiedenen Annahmen aus, von denen die Hauptannahme darin besteht, dass die vorherige Verteilung einheitlich ist. Diese werden in dem oben zitierten Artikel ausführlicher beschrieben.

Michael Wood
quelle
Es gibt so etwas wie einen Bayesianischen Bootstrap, der von Rubin eingeführt wurde. Aber ich denke nicht, dass du das meinst. Der gewöhnliche Bootstrap, wie er von Efron eingeführt wurde, ist wirklich ein Konzept für Vielflieger.
Michael Chernick