Beziehung zwischen Variation Bayes und EM

26

Ich habe irgendwo gelesen, dass die Variational Bayes-Methode eine Verallgemeinerung des EM-Algorithmus ist. In der Tat sind die iterativen Teile der Algorithmen sehr ähnlich. Um zu testen, ob der EM-Algorithmus eine spezielle Version der Variational Bayes ist, habe ich Folgendes versucht:

  1. Y. ist Daten, ist die Sammlung latenter Variablen und ist die Parameter. In Variational Bayes können wir eine Näherung machen, so dass . Wo einfacher sind, können Verteilungen gezogen werden.P ( X , | Y ) Q X ( X ) Q ( ) QXΘP(X,Θ|Y.)Q.X(X)Q.Θ(Θ)Q.

  2. Da der EM-Algorithmus eine MAP-Punktschätzung findet, dachte ich, dass Variational Bayes zu EM konvergieren können, wenn ich eine Delta-Funktion verwende, so dass: . ist die erste Schätzung für die Parameter, wie sie normalerweise in EM durchgeführt werden.1QΘ1(Θ)=δΘ1(Θ)Θ1

  3. Wenn gegeben ist, wird das die KL-Divergenz minimiert, durch die Formel Die obige Formel vereinfacht sich zu , wobei sich herausstellt, dass dieser Schritt dem Erwartungsschritt entspricht des EM-Algorithmus!Q 1 X ( X ) Q 1 X ( X ) = exp ( E & dgr; Θ 1 [ ln P ( X , Y , Θ ) ] )Q.Θ1(Θ)=δΘ1(Θ)Q.X1(X) Q 1 X (X)=P(X|1,Y)

    Q.X1(X)=exp(EδΘ1[lnP(X,Y.,Θ)])exp(EδΘ1[lnP(X,Y.,Θ)])dX
    Q.X1(X)=P(X|Θ1,Y.)

Aber ich kann den Maximierungsschritt nicht als Fortsetzung davon ableiten. Im nächsten Schritt müssen wir berechnen und laut Variational Bayes-Iterationsregel ist dies:Q.Θ2(Θ)

Q.Θ2(Θ)=exp(EP(X|Θ1,Y.)[lnP(X,Y.,Θ)])exp(EP(X|Θ1,Y.)[lnP(X,Y.,Θ)])dΘ

Sind VB- und EM-Algorithmen wirklich auf diese Weise verbunden? Wie können wir EM als Sonderfall der Variational Bayes ableiten, stimmt mein Ansatz?

Ufuk Can Bicici
quelle
Wo haben Sie gelesen, dass der EM-Algorithmus eine MAP-Schätzung findet? Die Beziehung zwischen Variationsinferenz und EM wird klar, wenn Sie die Ansicht von EM verstehen, die in diesem Artikel von Neal & Hinton (1998) vorgestellt wird . Siehe auch meine Antwort hier .
Lucas
Ich glaube, ich habe den EM-Algorithmus auf die gleiche Weise gelernt, wie in diesem Artikel erklärt, er wird als Problem der Maximierung der Untergrenze angesehen. Unter Verwendung von Jensens Gleichheit und Variationsrechnung findet man, dass im Erwartungsschritt die Verteilung ist, die die Untergrenze für maximiert, und im Maximierungsschritt findet man , was ein Maximum an der unteren Schranke ist. Das ist also ähnlich wie bei den Variational Bayes. (Und es konvergiert zu einem lokalen Maximum des hinteren t t + 1 = a r g m a x < ln P ( X , Y , ) > P ( X | t , Y )P(X|Θt,Y.)ΘtΘt+1=einrGmeinxΘ<lnP(X,Y.,Θ)>P(X|Θt,Y.)
Randes
1
Entschuldigung, ich habe Ihre Frage nicht sorgfältig genug gelesen. Ich glaube, Ihr Maximierungsschritt zur Berechnung von ist nur gültig, wenn Sie eine Verteilung zulassen, dh wenn Sie nur die Faktorisierungsannahme machen. Sie haben aber zusätzlich angenommen, dass eine Delta-Verteilung ist. Versuchen Sie, die Untergrenze in Bezug auf , den Parameter von , explizit zu maximieren . Q 2 Θ Θ 2 Q 2 Θ ( Θ ) = & dgr; Θ 2 ( Θ ) ,Q.Θ2Q.Θ2Θ2Q.Θ2(Θ)=δΘ2(Θ)
Lucas
Ich fand auf der Seite 21 der Präsentation cs.cmu.edu/~tom/10-702/Zoubin-702.pdf einen Vergleich von EM und VB, ähnlich wie bei Verwendung der Dirac-Funktion. Es ist jedoch nicht angegeben, wie VB zu EM reduziert wird.
Ufuk Can Bicici

Antworten:

20

Ihr Ansatz ist richtig. EM ist äquivalent zu VB unter der Bedingung, dass der ungefähre hintere Teil von auf eine Punktmasse beschränkt ist. (Dies wird ohne Beweis auf Seite 337 der Bayesian Data Analysis erwähnt .) Sei der unbekannte Ort dieser Punktmasse: VB wird minimiere die folgende KL-Divergenz: Das Minimum über gibt den E-Schritt von EM an, und das Minimum über gibt den M-Schritt von EM an. ΘΘ

QΘ(Θ)=δ(ΘΘ)
KL(Q.||P)=Q.X(X)Q.Θ(Θ)lnQ.X(X)Q.Θ(Θ)P(X,Y.,Θ)dXdΘ=Q.X(X)lnQ.X(X)Q.Θ(Θ)P(X,Y.,Θ)dX
Q.X(X)Θ

Wenn Sie die KL-Divergenz tatsächlich bewerten würden, wäre sie natürlich unendlich. Dies ist jedoch kein Problem, wenn Sie die Delta-Funktion als Grenze betrachten.

Tom Minka
quelle
Technisch gesehen wird wrt entspricht dem M-Schritt von MAP-EM (mit vorherigem ). - Abschnitt 3.1 des VBEM-Papiers Θ * P( Θ * )EQ.x[lnP(X,Y.,Θ)]=EQ.x[lnP(X,Y.|Θ)]+lnP(Θ)ΘP(Θ)
Yibo Yang,