Was ist der Unterschied zwischen den Algorithmen EM (Expectation Maximization) und Gradient Ascent (oder Descent)? Gibt es eine Bedingung, unter der sie gleichwertig sind?
Was ist der Unterschied zwischen den Algorithmen EM (Expectation Maximization) und Gradient Ascent (oder Descent)? Gibt es eine Bedingung, unter der sie gleichwertig sind?
Von:
Xu L und Jordan MI (1996). Über Konvergenzeigenschaften des EM-Algorithmus für Gaußsche Gemische . Neural Computation 2: 129 & ndash; 151.
Abstrakt:
Wir zeigen, dass der EM-Schritt im Parameterraum über eine Projektionsmatrix P aus dem Gradienten erhalten wird, und wir geben einen expliziten Ausdruck für die Matrix.
Seite 2
Insbesondere zeigen wir, dass der EM-Schritt durch Vormultiplizieren des Gradienten mit einer positiven Denitmatrix erhalten werden kann. Wir geben einen expliziten Ausdruck für die Matrix ...
Seite 3
Das heißt, der EM-Algorithmus kann als Aufstiegsalgorithmus mit variablem Metrikgradienten betrachtet werden ...
In diesem Artikel werden explizite Transformationen des EM-Algorithmus in Gradientenanstieg, Newton, Quasi-Newton, beschrieben.
Aus Wikipedia
Es gibt andere Methoden, um Schätzungen der maximalen Wahrscheinlichkeit zu finden, z. B. Gradientenabnahme, konjugierter Gradient oder Variationen der Gauß-Newton-Methode. Im Gegensatz zu EM erfordern solche Verfahren typischerweise die Auswertung erster und / oder zweiter Ableitungen der Wahrscheinlichkeitsfunktion.
Nein, sie sind nicht gleichwertig. Insbesondere ist die EM-Konvergenz viel langsamer.
Wenn Sie an einer Optimierungssicht auf EM interessiert sind, werden Sie in diesem Artikel sehen, dass der EM-Algorithmus ein Sonderfall einer breiteren Klasse von Algorithmen ist (Proximalpunkt-Algorithmen).
quelle