MCMC; Können wir sicher sein, dass wir eine "reine" und "groß genug" Probe vom hinteren Teil haben? Wie kann es funktionieren, wenn wir es nicht sind?

12

Unter Bezugnahme auf diesen Thread: Wie würden Sie einem Laien Markov Chain Monte Carlo (MCMC) erklären? .

Ich kann sehen, dass es sich um eine Kombination von Markov-Ketten und Monte Carlo handelt: Eine Markov-Kette wird mit dem posterior als invariante Grenzverteilung erstellt, und dann werden Monte Carlo-Zeichnungen (abhängig) von der Grenzverteilung (= unserem posterior) erstellt.

Nehmen wir an (ich weiß, dass ich hier vereinfache), dass wir nach Schritten bei der Grenzverteilung (*) sind.ΠLΠ

Da die Markov-Kette eine Folge von Zufallsvariablen ist, erhalte ich eine Folge , wobei eine Zufallsvariable und die Begrenzung ist. ' Zufallsvariable, aus der wir eine Stichprobe machen möchten. X i ΠX1,X2,,XL,Π,Π,Π,ΠXiΠ

Die MCMC beginnt mit einem Anfangswert, dh ist eine Zufallsvariable mit der gesamten Masse bei diesem einen Wert . Wenn ich für Zufallsvariablen Großbuchstaben und für die Realisierung einer Zufallsvariablen Kleinbuchstaben verwende, gibt mir die MCMC eine Folge . Die Länge der MCMC-Kette beträgt also L + n.x 1 x 1 , x 2 , x 3 , ... x L , π 1 , π 2 , π 3 , . . . . π nX1x1x1,x2,x3,xL,π1,π2,π3,....πn

[[* Hinweis: Die Großbuchstaben sind Zufallsvariablen (dh eine ganze Reihe von Ergebnissen) und das kleine sind Ergebnisse, dh ein bestimmter Wert. *]]x

Offensichtlich gehören nur die zu meinem '' posterior '' und für die Approximation des posterioren '' well '' sollte der Wert von '' groß genug '' sein. nπin

Wenn ich das zusammenfasse, habe ich eine MCMC-Kette der Länge , nur sind relevant für meine hintere Approximation und sollte groß genug sein.x1,x2,x3,xL,π1,π2,π3,....πnN=L+nπ1,π2,,πnn

Wenn ich einige der (dh Realisierungen, bevor die invariante Verteilung erreicht ist) in die Berechnung der Approximation des posterioren einbeziehe, wird es "verrauscht" sein.xi

Ich kenne die Länge der MCMC-Kette , aber ohne Kenntnis des , dh des Schritts, in dem ich die Grenzverteilung sicher abtasten kann, kann ich nicht sicher sein, dass ich kein Rauschen aufgenommen habe, und ich kann es auch nicht Sei dir sicher über , die Größe meiner Stichprobe aus der Grenzverteilung, insbesondere kann ich nicht sicher sein, ob sie "groß genug" ist. N=L+nLn=NL

Soweit ich verstanden habe, ist dieser Wert von von entscheidender Bedeutung für die Qualität der Approximation des Seitenzahns (Ausschluss von Rauschen und einer großen Stichprobe davon)L .

Gibt es Möglichkeiten, eine vernünftige Schätzung für wenn ich MCMC anwende?L

(*) Ich denke, dass im Allgemeinen vom Anfangswert abhängt .x 1Lx1

Gemeinschaft
quelle

Antworten:

6

TL DR; Sie können nicht schätzen, da L = . Somit kann die vereinfachende Annahme niemals wirklich möglich sein. (Möglicherweise gibt es einige Fälle, in denen dies der Fall ist, jedoch nicht in der allgemeinen Welt von MCMC). Sie können jedoch entscheiden, durch welches N die frühe Verzerrung klein wird.LL=N


Ihre Frage lautet im Wesentlichen: "Wie können wir die Einbrennzeit abschätzen?". Beim Einbrennen werden die anfänglichen Proben weggeworfen, da die Markov-Kette nicht konvergiert hat. Es gibt viele MCMC-Diagnosen, mit deren Hilfe Sie die Einbrennzeit abschätzen können. Eine Übersicht finden Sie hier .

In Bezug auf das Einbrennen gibt es zwei Durchgangsschulen. Das populäre ist, eine dieser Diagnosen zu verwenden, um zu entscheiden, was ist, und die L- Proben wegzuwerfen , und die zweite Schule davon, die ersten L- Proben sollten keine Rolle spielen, also mach dir keine Sorgen um sie. Charlie Geyer hat eine Schimpfe darüber, der ich zustimme.LLL

Nun komme ich zu den technischen Details Ihrer Frage.

Eine vereinfachende Annahme, die Sie in Ihrer Frage machen, ist, dass der Sampler schließlich (nach Schritten) aus der Grenzverteilung zu zeichnen beginnt. Ihre Samples nach L- Schritten sind also reine Draws, obwohl sie korreliert sind. Das ist falsch. Streng genommen L ist . Die Markov-Kette konvergiert in endlicher Zeit nie wirklich zur Grenzverteilung. Das Schätzen von L ist also fast sinnlos.LLLL

Eine andere Art, diese Frage zu stellen, ist: Was ist so dass die Markov-Kette nach L Schritten "nah genug" an der Grenzverteilung ist. Dies ist die Frage, die die meisten Diagnosen zu beantworten versuchen. Es besteht zunehmend Einigkeit darüber, dass die obigen Diagnosen im Allgemeinen äußerst liberal sind und "Konvergenz" diagnostizieren können, bevor dies der Fall sein sollte. In diesem Artikel werden einige der Schwächen der Diagnostik aufgezeigt.LL

Die Benutzer werden stattdessen aufgefordert, sich keine Sorgen um zu machen, sondern sich um N zu sorgen . Im Allgemeinen interessieren sich Benutzer nicht für die vollständige posteriore Verteilung, sondern für eine bestimmte Menge. Oft ist diese Größe der Mittelwert des Seitenzahns oder eine andere Funktion, die als Erwartung notiert werden kann. Hier kommt der "Monte Carlo" -Teil von MCMC ins Spiel, da Monte Carlo angibt, ein Integral mit der Summation zu schätzen. Also , wenn X 1 , X 2 , X 3 , ... , X N ist die Markov - Kette ( man beachte , wie ich ignoriere L , da L ist LNX1,X2,X3,,XNLL), und wir wollen den posterioren Mittelwert ( ) schätzen , dann ist ˉ θ N = 1θ

θ¯N=1Ni=1NXi.

Die Idee ist, dass, wenn groß genug ist, die anfängliche Vorspannung der Probe unbedeutend ist. Wenn der Startwert pathetisch weit vom Hochwahrscheinlichkeitsraum der Grenzverteilung entfernt war, kann ein Benutzer natürlich die ersten Proben in die Augen werfen und wegwerfen. Dies unterscheidet sich von der Schätzung von L , da es sich nicht um eine Schätzung handelt, sondern um eine gebildete Missachtung von eindeutig verfälschten Stichproben.NL

Nun stellt sich natürlich die Frage, wie groß soll. Die Antwort sollte davon abhängen, wie gut wir θ schätzen wollen . Wenn wir eine gute Schätzung wünschen, brauchen wir mehr Stichproben. Wenn eine gute Schätzung ausreicht, ist eine kleinere Stichprobe möglicherweise in Ordnung. Dies ist auch genau das, was bei statistischen Standardproblemen passiert.Nθ

Die Art und Weise, wie wir die "Güte" einer Schätzung quantifizieren, ist zu denken: "Was können wir über , den Monte-Carlo-Fehler, sagen ? Unter vernünftigen Bedingungen gibt es tatsächlich eine Markov-Kette CLT, die als N sagt , für jede Ausgangsverteilung (θ¯Nθ)N

N(θ¯Nθ)dNp(0,Σ),

wobei und Σ die asymptotische Kovarianzmatrix ist. Der Schlüssel hier ist, dass das Ergebnis für jede Erstverteilung wahr ist.θRpΣ

Wenn klein ist, wissen wir, dass der Schätzer gut ist. In diesem Artikel wird diese Idee des Stoppens vorgestellt, und meine Antwort hier fasst ihre Methode zusammen. Die Ergebnisse in ihrer Arbeit sind auch unabhängig von der anfänglichen Verteilung des Prozesses.Σ/N

Greenparker
quelle
LΣ/nθ^N
Σ/Nθ¯N
X1πg¯n
X1ππ