Ich habe irgendwo gelesen, dass die Variational Bayes-Methode eine Verallgemeinerung des EM-Algorithmus ist. In der Tat sind die iterativen Teile der Algorithmen sehr ähnlich. Um zu testen, ob der EM-Algorithmus eine spezielle Version der Variational Bayes ist, habe ich Folgendes versucht:
ist Daten, ist die Sammlung latenter Variablen und ist die Parameter. In Variational Bayes können wir eine Näherung machen, so dass . Wo einfacher sind, können Verteilungen gezogen werden.≤ P ( X , ≤ | Y ) ≤ Q X ( X ) Q ≤ ( ≤ ) Q
Da der EM-Algorithmus eine MAP-Punktschätzung findet, dachte ich, dass Variational Bayes zu EM konvergieren können, wenn ich eine Delta-Funktion verwende, so dass: . ist die erste Schätzung für die Parameter, wie sie normalerweise in EM durchgeführt werden.≤ 1
Wenn gegeben ist, wird das die KL-Divergenz minimiert, durch die Formel Die obige Formel vereinfacht sich zu , wobei sich herausstellt, dass dieser Schritt dem Erwartungsschritt entspricht des EM-Algorithmus!Q 1 X ( X ) Q 1 X ( X ) = exp ( E & dgr; Θ 1 [ ln P ( X , Y , Θ ) ] ) Q 1 X (X)=P(X|≤1,Y)
Aber ich kann den Maximierungsschritt nicht als Fortsetzung davon ableiten. Im nächsten Schritt müssen wir berechnen und laut Variational Bayes-Iterationsregel ist dies:
Sind VB- und EM-Algorithmen wirklich auf diese Weise verbunden? Wie können wir EM als Sonderfall der Variational Bayes ableiten, stimmt mein Ansatz?
quelle
Antworten:
Ihr Ansatz ist richtig. EM ist äquivalent zu VB unter der Bedingung, dass der ungefähre hintere Teil von auf eine Punktmasse beschränkt ist. (Dies wird ohne Beweis auf Seite 337 der Bayesian Data Analysis erwähnt .) Sei der unbekannte Ort dieser Punktmasse: VB wird minimiere die folgende KL-Divergenz: Das Minimum über gibt den E-Schritt von EM an, und das Minimum über gibt den M-Schritt von EM an.Θ Θ∗
Wenn Sie die KL-Divergenz tatsächlich bewerten würden, wäre sie natürlich unendlich. Dies ist jedoch kein Problem, wenn Sie die Delta-Funktion als Grenze betrachten.
quelle