Warum sollte man EM vs. Gradient Descent mit MLE verwenden?

10

Mathematisch gesehen wird oft gesehen, dass Ausdrücke und Algorithmen für die Erwartungsmaximierung (Expectation Maximization, EM) für gemischte Modelle oft einfacher sind, aber es scheint, dass fast alles (wenn nicht alles), was mit EM gelöst werden kann, auch mit MLE gelöst werden kann (z. B. durch die Newton-Raphson-Methode für Ausdrücke, die nicht geschlossen sind).

In der Literatur scheinen jedoch viele EM gegenüber anderen Methoden zu bevorzugen (einschließlich der Minimierung des LL durch beispielsweise Gradientenabstieg); liegt es an seiner Einfachheit in diesen Modellen? Oder ist es aus anderen Gründen?

Guillermo Angeris
quelle

Antworten:

15

Ich denke, hier gibt es einige gekreuzte Drähte. Die MLE, auf die in der statistischen Literatur Bezug genommen wird, ist die Maximum-Likelihood-Schätzung. Dies ist ein Schätzer . Der EM-Algorithmus ist, wie der Name schon sagt, ein Algorithmus, der häufig zur Berechnung des MLE verwendet wird. Das sind Äpfel und Orangen.

Wenn die MLE nicht in geschlossener Form vorliegt, ist der Newton-Raphson-Algorithmus ein häufig verwendeter Algorithmus, um dies zu ermitteln. Dies ist möglicherweise das, worauf Sie sich beziehen, wenn Sie angeben, dass "auch mit MLE gelöst werden kann". Bei vielen Problemen funktioniert dieser Algorithmus hervorragend. Bei "Vanille" -Problemen ist es normalerweise schwer zu schlagen.

Es gibt jedoch viele Probleme, bei denen dies fehlschlägt, z. B. Mischungsmodelle. Meine Erfahrung mit verschiedenen Rechenproblemen hat gezeigt, dass der EM-Algorithmus zwar nicht immer die schnellste Wahl ist, aus verschiedenen Gründen jedoch häufig die einfachste. Bei neuartigen Modellen wird der erste Algorithmus, der zum Auffinden des MLE verwendet wird, häufig ein EM-Algorithmus sein. Einige Jahre später stellen Forscher möglicherweise fest, dass ein wesentlich komplizierterer Algorithmus wesentlich schneller ist. Diese Algorithmen sind jedoch nicht trival.

Darüber hinaus spekuliere ich, dass ein Großteil der Popularität des EM-Algorithmus in seiner statistischen Ausstrahlung liegt, was Statistikern hilft, sich von numerischen Analysten unterschieden zu fühlen.

Cliff AB
quelle
3
"... Statistikern helfen, sich von numerischen Analysten unterschieden zu fühlen" --- Ich werde diese Zeile definitiv für die spätere Verwendung speichern.
Guillermo Angeris
Zusätzlich (ich habe die Frage gerade aktualisiert, weil ich ursprünglich beabsichtigt hatte, dies auch aufzunehmen), aber warum sollten wir EM anstelle eines Algorithmus wie Gradient Descent verwenden? Was ist die Präferenz für einen zum anderen? Konvergenzgeschwindigkeit vielleicht?
Guillermo Angeris
1
In der Arbeit, die ich gemacht habe, ist der größte Vorteil des EM-Algorithmus die Tatsache, dass die vorgeschlagenen Parameterwerte immer gültig sind: dh Wahrscheinlichkeitsmassen zwischen [0,1], die sich zu 1 summieren, was nicht unbedingt der Fall ist Gradientenabstieg. Ein weiterer Vorteil ist, dass Sie nicht die Wahrscheinlichkeit berechnen müssen, um sicherzustellen, dass sie bei jedem Schritt gestiegen ist. Dies ist eine große Sache, wenn das Update schnell berechnet werden kann, die Wahrscheinlichkeit jedoch nicht.
Cliff AB
3
Ein weiterer sehr schöner Aspekt des EM-Algorithmus: Er ist tendenziell numerisch viel stabiler als gradientenbasierte Methoden. Meine Forschung begann mit EM-Algorithmen und ich brauchte 4 Jahre, um zu erkennen, wie ärgerlich numerische Instabilität sein kann (dh als ich anfing, Nicht-EM-Algorithmen zu verwenden).
Cliff AB
interessant. Ich denke, diese Frage ist mir gerade wieder aufgetaucht, aber was ist mit einer ähnlichen konvexen Optimierung (bei den Subgradienten), bei der Sie im Wesentlichen einen Gradientenabstieg durchführen und dann nur auf die realisierbare Menge projizieren? Ich meine, es klingt sicherlich viel schwieriger als EM, aber was wären einige andere Nachteile?
Guillermo Angeris