Ok, das ist eine Frage, die mich nachts wach hält.
Kann die Bootstrap-Prozedur so interpretiert werden, dass sie einer Bayes'schen Prozedur nahekommt (mit Ausnahme der Bayes'schen Bootstrap-Prozedur)?
Mir gefällt die bayesianische "Interpretation" von Statistiken sehr gut, die ich für kohärent und leicht verständlich halte. Ich habe jedoch auch eine Schwäche für das Bootstrap-Verfahren, das so einfach ist, aber in vielen Situationen vernünftige Schlussfolgerungen liefert. Mit dem Bootstrapping wäre ich jedoch zufriedener, wenn ich wüsste, dass das Bootstrap in gewisser Weise einer posterioren Verteilung entspricht.
Ich kenne den "Bayesian Bootstrap" (Rubin, 1981), aber aus meiner Sicht ist diese Version des Bootstraps genauso problematisch wie der Standard-Bootstrap. Das Problem ist die eigentümliche Modellannahme, die Sie sowohl beim klassischen als auch beim bayesianischen Bootstrap machen, dh die möglichen Werte der Verteilung sind nur die Werte, die ich bereits gesehen habe. Wie können diese seltsamen Modellannahmen immer noch die sehr vernünftigen Schlussfolgerungen liefern, die Bootstrap-Prozeduren liefern? Ich habe nach Artikeln gesucht, die die Eigenschaften des Bootstraps untersucht haben (z. B. Weng, 1989), aber ich habe keine klare Erklärung gefunden, mit der ich zufrieden bin.
Verweise
Donald B. Rubin (1981). Der Bayesianische Stiefelriemen. Ann. Statist. Band 9, Nummer 1, 130-134.
Chung-Sing Weng (1989). Auf einer asymptotischen Eigenschaft zweiter Ordnung des Bayesian Bootstrap Mean. The Annals of Statistics . 17, No. 2, S. 705-710.
Antworten:
Abschnitt 8.4 der Elemente des statistischen Lernens von Hastie, Tibshirani und Friedman lautet "Beziehung zwischen dem Bootstrap und der Bayes'schen Folgerung". Das könnte genau das sein, wonach Sie suchen. Ich glaube, dass dieses Buch über eine Stanford-Website frei verfügbar ist, obwohl ich den Link nicht zur Hand habe.
Bearbeiten:
Hier ist ein Link zu dem Buch, das die Autoren online frei zugänglich gemacht haben:
http://www-stat.stanford.edu/~tibs/ElemStatLearn/
Auf Seite 272 schreiben die Autoren:
Ein weiteres Puzzlestück findet sich in dieser kreuzvalidierten Frage, in der die Dvoretzky-Kiefer-Wolfowitz-Ungleichung erwähnt wird , [...] die zeigt, dass die empirische Verteilungsfunktion mit exponentiell hoher Wahrscheinlichkeit gleichförmig zur wahren Verteilungsfunktion konvergiert.
Alles in allem könnte der nicht-parametrische Bootstrap als eine asymptotische Methode angesehen werden, die "eine (ungefähre) nichtparametrische, nicht-informative posteriore Verteilung für unseren Parameter" erzeugt und bei zunehmender Anzahl von Abtastungen "exponentiell schnell" besser wird.
quelle
Dies ist das neueste Papier, das ich zu diesem Thema gesehen habe:
quelle
Auch ich war von Bootstrapping und Bayes 'Theorem verführt, aber ich konnte die Rechtfertigungen von Bootstrapping nicht verstehen, bis ich es aus Bayes'scher Perspektive betrachtete. Dann kann - wie ich weiter unten erläutere - die Bootstrap-Verteilung als eine Bayes'sche posteriore Verteilung angesehen werden, die die (a?) Begründung für das Bootstrapping offensichtlich macht und auch den Vorteil hat, die getroffenen Annahmen zu klären. Weitere Einzelheiten zu dem folgenden Argument und den getroffenen Annahmen finden Sie unter https://arxiv.org/abs/1803.06214 (Seiten 22-26).
Angenommen, wir haben ein Beispiel in der Tabelle unter http://woodm.myweb.port.ac.uk/SL/resample.xlsx (klicken Sie auf die Registerkarte bootstrap am unteren Bildschirmrand) Eine Stichprobe von 9 Messungen mit einem Mittelwert von 60. Als ich die Tabelle zur Erstellung von 1000 Resamples mit Ersatz aus dieser Stichprobe verwendete und die Mittelwerte auf die nächste gerade Zahl abrundete, waren 82 dieser Mittelwerte 54. Die Idee von Bootstrapping ist, dass wir Verwenden Sie die Stichprobe als "vorgetäuschte" Grundgesamtheit, um festzustellen, wie unterschiedlich die Mittelwerte der Stichproben von 9 wahrscheinlich sind. Dies deutet darauf hin, dass die Wahrscheinlichkeit eines Stichprobenmittelwerts 6 unter dem Grundgesamtheitsmittelwert liegt (in diesem Fall die vorgetäuschte Grundgesamtheit basierend auf dem Stichprobe mit einem Mittelwert von 60) beträgt 8,2%. Und wir können zu einer ähnlichen Schlussfolgerung über die anderen Balken im Resampling-Histogramm kommen.
Stellen wir uns nun vor, die Wahrheit ist, dass der Mittelwert der realen Bevölkerung 66 beträgt. Wenn dies der Fall ist, beträgt unsere Schätzung der Wahrscheinlichkeit, dass der Stichprobenmittelwert 60 (dh die Daten) beträgt, 8,2% (unter Verwendung der Schlussfolgerung im obigen Absatz) dass 60 6 unter dem hypothetischen Populationsmittel von 66 liegt). Schreiben wir das als
P (Daten angegeben Mittelwert = 66) = 8,2%
und diese Wahrscheinlichkeit entspricht einem x-Wert von 54 in der Neuabtastungsverteilung. Dieselbe Art von Argument gilt für jeden möglichen Populationsmittelwert von 0, 2, 4 ... 100. Die Wahrscheinlichkeit ergibt sich jeweils aus der Resampling-Verteilung - diese Verteilung spiegelt sich jedoch über den Mittelwert von 60 wider.
Wenden wir nun den Satz von Bayes an. Die fragliche Messung kann nur Werte zwischen 0 und 100 annehmen, so dass auf die nächste gerade Zahl gerundet die Möglichkeiten für den Populationsmittelwert 0, 2, 4, 6, ... 100 sind. Wenn wir annehmen, dass die vorherige Verteilung flach ist, hat jede von diesen eine vorherige Wahrscheinlichkeit von 2% (bis 1 dp), und der Satz von Bayes sagt uns, dass
P (PopMean = 66 gegebene Daten) = 8,2% * 2% / P (Daten)
wo
P (Daten) = P (PopMean = 0 gegebene Daten) * 2% + P (PopMean = 2 gegebene Daten) * 2% + ... + P (PopMean = 100 gegebene Daten) * 2%
Wir können jetzt die 2% stornieren und uns daran erinnern, dass die Summe der Wahrscheinlichkeiten 1 sein muss, da die Wahrscheinlichkeiten einfach die aus der Resampling-Verteilung sind. Was uns zu dem Schluss bringt, dass
P (PopMean = 66) = 8,2%
Wenn man bedenkt, dass 8,2% die Wahrscheinlichkeit aus der Neuabtastungsverteilung ist, die 54 entspricht (anstelle von 66), ist die hintere Verteilung einfach die Neuabtastungsverteilung, die sich über den Probenmittelwert (60) widerspiegelt. Wenn die Neuabtastungsverteilung in dem Sinne symmetrisch ist, dass Asymmetrien zufällig sind - wie in diesem und vielen anderen Fällen -, können wir die Neuabtastungsverteilung als identisch mit der posterioren Wahrscheinlichkeitsverteilung annehmen.
Dieses Argument geht von verschiedenen Annahmen aus, von denen die Hauptannahme darin besteht, dass die vorherige Verteilung einheitlich ist. Diese werden in dem oben zitierten Artikel ausführlicher beschrieben.
quelle