Wenn wir mit der Markov-Kette Monte Carlo arbeiten, um Rückschlüsse zu ziehen, brauchen wir eine Kette, die sich schnell mischt, dh die Unterstützung der hinteren Verteilung schnell durchwandert. Aber ich verstehe nicht, warum wir diese Eigenschaft brauchen, denn nach meinem Verständnis sollten und werden sich die akzeptierten Kandidatenzeichnungen auf den Teil mit der hohen Dichte der posterioren Verteilung konzentrieren. Wenn das, was ich verstehe, wahr ist, wollen wir dann immer noch, dass sich die Kette durch den Träger bewegt (der den Teil mit niedriger Dichte enthält)?
Wenn ich MCMC für die Optimierung verwende, muss ich mich trotzdem um schnelles Mischen kümmern und warum?
Vielen Dank für Ihre Meinung!
Antworten:
Der ideale Monte-Carlo-Algorithmus verwendet unabhängige aufeinanderfolgende Zufallswerte. In MCMC sind aufeinanderfolgende Werte nicht unabhängig, was die Konvergenz der Methode langsamer macht als im idealen Monte Carlo. Je schneller es sich jedoch mischt, desto schneller fällt die Abhängigkeit in aufeinanderfolgenden Iterationen ab¹ und desto schneller konvergiert es.
¹ Ich meine hier, dass die aufeinanderfolgenden Werte schnell "fast unabhängig" vom Ausgangszustand sind, oder vielmehr, dass bei gegebenem Wert an einem Punkt die Werte schnell "fast unabhängig" von wenn wächst; Also, wie qkhhly in den Kommentaren sagt, "bleibt die Kette nicht in einer bestimmten Region des Staatsraums stecken".X ñ + k X n kXn Xñ +k Xn k
Bearbeiten: Ich denke, das folgende Beispiel kann helfen
Stellen Sie sich vor, Sie möchten den Mittelwert der Gleichverteilung auf durch MCMC schätzen . Sie beginnen mit der geordneten Sequenz ; Bei jedem Schritt wählten Sie Elemente in der Sequenz und mischten sie nach dem Zufallsprinzip. Bei jedem Schritt wird das Element an Position 1 aufgezeichnet. dies konvergiert zur gleichmäßigen Verteilung. Der Wert von steuert die Mischgeschwindigkeit: Wenn , ist es langsam; Wenn , sind die aufeinanderfolgenden Elemente unabhängig und das Mischen ist schnell.( 1 , … , n ) k > 2 k k = 2 k = n{ 1 , … , n } ( 1 , … , n ) k > 2 k k = 2 k = n
Hier ist eine R-Funktion für diesen MCMC-Algorithmus:
Wenden wir es für an und zeichnen die sukzessive Schätzung des Mittelwerts entlang der MCMC-Iterationen auf:u = 50n = 99 μ = 50
Sie können hier sehen, dass für (in Schwarz) die Konvergenz langsam ist; für (in blau) ist es schneller, aber immer noch langsamer als mit (in rot).k = 50 k = 99k = 2 k = 50 k = 99
Sie können auch ein Histogramm für die Verteilung des geschätzten Mittelwerts nach einer festgelegten Anzahl von Iterationen zeichnen, z. B. 100 Iterationen:
quelle
( X n ) π
Darüber hinaus ist die Unabhängigkeit zwischen den nur in einigen Einstellungen relevant. Im Hinblick auf die Integration ist die negative Korrelation (auch als antithetische Simulation bezeichnet ) der Unabhängigkeit überlegen.Xn
Über deinen speziellen Kommentar dazu
Die MCMC-Kette untersucht das Ziel genau proportional zu seiner Höhe (im stationären Bereich) und verbringt in der Tat mehr Zeit in den Bereichen mit höherer Dichte. Dass die Kette Regionen niedrigerer Dichte durchqueren muss, ist relevant, wenn das Target mehrere Komponenten hoher Dichte aufweist, die durch Regionen niedriger Dichte getrennt sind. (Dies wird auch als multimodale Einstellung bezeichnet.) Langsames Mischen kann die Kette daran hindern, solche Regionen mit niedriger Dichte zu überqueren. Die einzigen Regionen die Kette niemals besuchen sollte, sind die Regionen mit einer Wahrscheinlichkeit von Null unter der Zielverteilung.(Xn)
quelle
Die Vermutungen, die den Wunsch nach einer schnell mischenden Kette auslösen, lauten, dass Sie sich für die Rechenzeit interessieren und eine repräsentative Probe vom posterior wünschen. Ersteres hängt von der Komplexität des Problems ab: Wenn Sie ein kleines / einfaches Problem haben, spielt es möglicherweise keine Rolle, ob Ihr Algorithmus effizient ist. Letzteres ist sehr wichtig, wenn Sie an posteriorer Unsicherheit interessiert sind oder den posterioren Mittelwert mit hoher Präzision kennen. Wenn Sie sich jedoch nicht für eine repräsentative Probe des Seitenzahns interessieren, weil Sie nur MCMC verwenden, um eine ungefähre Optimierung durchzuführen, ist dies für Sie möglicherweise nicht sehr wichtig.
quelle