Ich habe einige Erklärungen zum EM-Algorithmus gelesen (z. B. aus Bishops Mustererkennung und maschinellem Lernen sowie aus dem ersten Kurs von Roger und Gerolami über maschinelles Lernen). Die Ableitung von EM ist in Ordnung, ich verstehe es. Ich verstehe auch, warum der Algorithmus etwas überdeckt: Bei jedem Schritt verbessern wir das Ergebnis und die Wahrscheinlichkeit wird durch 1,0 begrenzt. Wenn wir also eine einfache Tatsache verwenden (wenn eine Funktion zunimmt und begrenzt wird, konvergiert sie), wissen wir, dass der Algorithmus gegen konvergiert eine Lösung.
Woher wissen wir jedoch, dass es sich um ein lokales Minimum handelt? Bei jedem Schritt berücksichtigen wir nur eine Koordinate (entweder latente Variable oder Parameter), sodass wir möglicherweise etwas übersehen, so dass das lokale Minimum das gleichzeitige Bewegen um beide Koordinaten erfordert.
Dies ist meines Erachtens ein ähnliches Problem wie das der allgemeinen Klasse von Hill Climbing-Algorithmen, für die EM ein Beispiel ist. Für einen allgemeinen Hill Climbing-Algorithmus haben wir dieses Problem für die Funktion f (x, y) = x * y. Wenn wir von (0, 0) beginnen, können wir uns nur unter gleichzeitiger Berücksichtigung beider Richtungen von 0 nach oben bewegen.
Antworten:
Es ist nicht garantiert, dass EM zu einem lokalen Minimum konvergiert. Es ist nur garantiert, dass die Konvergenz in Bezug auf die Parameter zu einem Punkt mit einem Gefälle von Null erfolgt. So kann es in der Tat an Sattelpunkten hängen bleiben.
quelle
Zuallererst ist es möglich, dass EM gegen ein lokales Minimum , ein lokales Maximum oder einen Sattelpunkt der Wahrscheinlichkeitsfunktion konvergiert . Genauer gesagt, wie Tom Minka betonte, wird EM garantiert zu einem Punkt mit einem Gefälle von Null konvergieren .
Ich kann mir zwei Möglichkeiten vorstellen, dies zu sehen. Die erste Ansicht ist reine Intuition, und die zweite Ansicht ist die Skizze eines formalen Beweises. Zunächst werde ich kurz erläutern, wie EM funktioniert:
Erwartungsmaximierung als Gradientenanstieg
In jeder Iteration erfordert EM, dass die Schranke die Wahrscheinlichkeitsfunktion bei der Lösung der vorherigen Iteration berührt, dh, dass was impliziert, dass ihre Gradienten auch gleich sind; das heißt . EM ist also mindestens so gut wie Gradientenanstieg, weil mindestens so gut wie ist . Mit anderen Worten:b t L & thgr ; t - 1 g = & thgr; b t ( & thgr ; t - 1 ) = & thgr; L ( & thgr ; t - 1 )t bt L θt - 1 G= ∇ bt( θt - 1) = ≤ L ( θt - 1) θt θt - 1+ ηG
Skizze eines formalen Beweises
Man kann zeigen, dass die Lücke zwischen den Grenzen und der Wahrscheinlichkeitsfunktion gegen Null konvergiert; das ist Man kann beweisen, dass der Gradient der Schranke auch gegen den Gradienten der Wahrscheinlichkeitsfunktion konvergiert; das heißt: Aufgrund von und und dass die in EM verwendeten Grenzen differenzierbar sind und dass , haben wir das und daher .
quelle