Dies ist eine wiederkehrende Frage (siehe diesen Beitrag , diesen Beitrag und diesen Beitrag ), aber ich habe einen anderen Dreh.
Angenommen, ich habe ein paar Samples von einem generischen MCMC-Sampler. Für jede Probe , weiß ich den Wert der Log - Likelihood und des log vor . Wenn es hilft, kenne ich auch den Wert der Log-Wahrscheinlichkeit pro Datenpunkt, (diese Information hilft bei bestimmten Methoden, wie WAIC und PSIS-LOO).
Ich möchte eine (grobe) Schätzung der Grenzwahrscheinlichkeit erhalten, nur mit den Stichproben, die ich habe, und möglicherweise ein paar anderen Funktionsbewertungen (aber ohne ein Ad-hoc- MCMC erneut auszuführen ).
Lassen Sie uns zuerst den Tisch abräumen. Wir alle wissen, dass der harmonische Schätzer der schlechteste Schätzer aller Zeiten ist . Lass uns weitermachen. Wenn Sie Gibbs-Sampling mit Priors und Posteriors in geschlossener Form durchführen, können Sie die Chib-Methode verwenden . Ich bin mir jedoch nicht sicher, wie ich außerhalb dieser Fälle verallgemeinern soll. Es gibt auch Methoden, bei denen Sie das Probenahmeverfahren ändern müssen (z. B. über temperierte Seitenzähne ), aber das interessiert mich hier nicht.
Der Ansatz, an den ich denke, besteht darin, die zugrunde liegende Verteilung mit einer parametrischen (oder nichtparametrischen) Form ) zu approximieren und dann die Normalisierungskonstante als ein 1-D-Optimierungsproblem (dh das , das einen Fehler minimiert herauszufinden zwischen und , bewertet an den Abtastwerten). Nehmen wir im einfachsten Fall an, der posterior ist ungefähr multivariate Normalen, ich kann als multivariate Normalen anpassen und etwas Ähnliches wie eine Laplace-Näherung erhalten (ich möchte möglicherweise ein paar zusätzliche Funktionsauswertungen verwenden, um die Position von zu verfeinern der Modus). Ich könnte jedoch alseine flexiblere Familie wie eine Variationsmischung multivariater Verteilungen.
Ich schätze, dass diese Methode nur funktioniert, wenn eine vernünftige Annäherung an , aber jeder Grund oder jede warnende Geschichte, warum dies sehr unklug wäre TU es? Eine Lektüre, die Sie empfehlen würden?
Der vollständig nichtparametrische Ansatz verwendet eine nichtparametrische Familie, wie einen Gaußschen Prozess (GP), um (oder eine andere nichtlineare Transformation davon, wie z als Quadratwurzel) und Bayes'sche Quadratur zur impliziten Integration über das zugrunde liegende Ziel (siehe hier und hier ). Dies scheint ein interessanter alternativer Ansatz zu sein, der jedoch sinngemäß analog ist (beachten Sie auch, dass Allgemeinmediziner in meinem Fall unhandlich wären).
quelle
Antworten:
Die Erweiterung von Chib und Jeliazkov (2001) wird leider schnell kostspielig oder sehr variabel, was ein Grund dafür ist, dass sie außerhalb von Gibbs-Sampling-Fällen nicht häufig verwendet wird.
Während es viele Möglichkeiten und Ansätze für das Problem der Schätzung der Normalisierungskonstante (wie die recht unterschiedlichen Vorträge im Workshop zur Schätzung der Konstanten, den wir letzte Woche an der Universität von Warwick durchgeführt haben und die dort zur Verfügung stehen ), nutzen einige Lösungen die MCMC-Ausgabe direkt .Z
Wie Sie bereits erwähnt haben, ist der harmonische Mittelwertschätzer von Newton and Raftery (1994) fast immer schlecht für eine unendliche Varianz. Es gibt jedoch Möglichkeiten, den Fluch der unendlichen Varianz zu vermeiden, indem stattdessen ein endliches Unterstützungsziel in der harmonischen mittleren Identität durch Auswählen vonαals Indikator für eine HPD-Region für den posterioren Bereich. Dies stellt eine endliche Varianz sicher, indem die Schwänze im harmonischen Mittelwert entfernt werden. (Details finden Sie ineinem Artikel, den ich mit Darren Wraith geschrieben habe,und in einemKapitel über das Normalisieren von Konstanten,die mit Jean-Michel Marin geschrieben wurden.) Kurz gesagt, die Methode recycelt die MCMC-Ausgabeθ1,…,θMdurch Identifizieren desβ( 20% sagen) größte Werte des Zielsπ(θ)f(x|θ)und Erzeugen vonα
Ein anderer Ansatz besteht darin, die Normalisierungskonstante in einen Parameter umzuwandeln. Das klingt nach einer statistischen Ketzerei, aber die Arbeit von Guttmann und Hyvärinen (2012) hat mich vom Gegenteil überzeugt. Zu viel in die Details , ohne sich darin die nette Idee ist die beobachtete Log-Likelihood drehen n Σ i = 1 f ( x i | & thgr; ) - n log ∫ exp f ( x | & thgr; ) d x in einer gemeinsamen Log-Likelihood n ∑ i = 1 [ fZ
quelle