Wie leitet man Gibbs-Sampling ab?

11

Ich zögere tatsächlich, dies zu fragen, weil ich befürchte, dass ich auf andere Fragen oder Wikipedia zu Gibbs-Stichproben verwiesen werde, aber ich habe nicht das Gefühl, dass sie beschreiben, was zur Hand ist.

Bei einer bedingten Wahrscheinlichkeit p(x|y) :

p(x|y)y=y0y=y1x=x01426x=x13446

Und eine bedingte Wahrscheinlichkeit p(y|x) :

p(y|x)y=y0y=y1x=x01323x=x13747

Wir können die gemeinsame Wahrscheinlichkeit eindeutig ermitteln funique=p(x,y):

p(x,y)y=y0y=y1p(x)x=x0a0a1c0x=x1a2a3c1p(y)b0b1

Denn obwohl wir Unbekannte haben, haben wir mehr ( 4 2 + 3 ) lineare Gleichungen:842+3

a0+a1+a2+a3=1b0+b1=1c0+c1=1

Ebenso gut wie:

14b0=a034b0=a226(1b0)=a146(1b0)=a313c0=a023c0=a137(1c0)=a247(1c0)=a3

Es ist schnell gelöst durch ,2c0=34b0. Nämlich durch Gleichsetzen von223c0=a1mit224b0=a1. Dies ergibtb0=26(1b0)=a1 und der Rest folgt.b0=25

p(x,y)y=y0y=y1p(x)x=x0110210310x=x1310410710p(y)410610

Nun gehen wir zum kontinuierlichen Fall. Es ist vorstellbar, zu Intervallen zu gehen und die obige Struktur in Kontakt zu halten (mit mehr Gleichungen als Unbekannten). Was passiert jedoch, wenn wir zu (Punkt-) Instanzen von Zufallsvariablen gehen? Wie erfolgt die Probenahme?

xap(x|y=yb)ybp(y|x=xa)

iterativ zu ? Wie wird entsprechend der Bedingung a 0 + a 1 + a 2 + a 3 = 1 beispielsweise X Y p ( x , y ) d y d x = 1 sichergestellt ? Ebenso mit Y p ( y | x ) d y = 1p(x,y)a0+a1+a2+a3=1XYp(x,y)dydx=1Yp(y|x)dy=1. Können wir die Einschränkungen aufschreiben und Gibbs-Stichproben aus ersten Prinzipien ableiten?

Ich bin also nicht daran interessiert, wie Gibbs-Sampling durchgeführt wird, was einfach ist, aber ich bin daran interessiert, wie man es ableitet und vorzugsweise beweist, dass es funktioniert (wahrscheinlich unter bestimmten Bedingungen).

Anne van Rossum
quelle

Antworten:

9

Die Berechnung einer gemeinsamen Verteilung aus bedingten Verteilungen ist im Allgemeinen sehr schwierig. Wenn die bedingten Verteilungen willkürlich gewählt werden, existiert möglicherweise nicht einmal eine gemeinsame gemeinsame Verteilung. In diesem Fall ist es im Allgemeinen schwierig zu zeigen, dass die bedingten Verteilungen konsistent sind. Ein Ergebnis, das zur Ableitung einer gemeinsamen Verteilung verwendet werden könnte, ist Brooks Lemma .

p(x)p(x')=ichp(xichx<ich,x>ich')p(xich'x<ich,x>ich'),
durch Auswahl eines festen Zustands x', obwohl ich es selbst nie erfolgreich für diesen Zweck verwendet habe. Um mehr zu diesem Thema zu erfahren, würde ich mir Julian Besags Arbeit ansehen.

Um zu beweisen, dass Gibbs Sampling funktioniert, ist es jedoch besser, einen anderen Weg einzuschlagen. Wenn eine durch einen Stichprobenalgorithmus implementierte Markov-Kette verteilt istpAls invariante Verteilung und irreduzibel und aperiodisch konvergiert die Markov-Kette zu dieser Verteilung (Tierney, 1994). .

Bei der Gibbs-Abtastung bleibt die gemeinsame Verteilung immer unveränderlich, aus der die bedingten Verteilungen abgeleitet wurden: Ungefähr, wenn (x0,y0)p(x0,y0) und wir probieren x1p(x1y0), dann

(x1,y0)p(x0,y0)p(x1y0)dx0=p(x1y0)p(y0)=p(x1,y0).

That is, updating x by conditionally sampling does not change the distribution of the sample.

However, Gibbs sampling is not always irreducible. While we can always apply it without breaking things (in the sense that if we already have a sample from the desired distribution it will not change the distribution), it depends on the joint distribution whether Gibbs sampling will actually converge to it (a simple sufficient condition for irreducibility is that the density is positive everywhere, p(x)>0).

Lucas
quelle
Interessantes Kompatibilitätsproblem. Ich überprüfe jetzt die "Kompatibilität endlicher diskreter bedingter Verteilungen" (Song et al.), Die eine "Verhältnismatrix" verwenden, um Kompatibilität und Eindeutigkeit festzustellen. Daher kann Gibbs nicht aus diesen Einschränkungen abgeleitet werden, da sie zunächst nicht erzwungen werden. Ich kann mir vorstellen, dass es zu einer falschen gemeinsamen Verteilung (Summe> 1) kommen könnte, wenn die bedingten Verteilungen beispielsweise nicht kompatibel sind. Irgendwie habe ich jedoch das Gefühl, dass das, was ich tue, etwas Deterministisches ist, etwas, das der Radon-Transformation ähnelt. Gibbs Sampling sieht so ... schmutzig aus.
Anne van Rossum