Ableiten des K-Mittelwert-Algorithmus als Grenze der Erwartungsmaximierung für Gaußsche Gemische

8

Christopher Bishop definiert den erwarteten Wert der Likelihood-Funktion für das vollständige Datenprotokoll (dh unter der Annahme, dass wir sowohl die beobachtbaren Daten X als auch die latenten Daten Z erhalten) wie folgt:

(1)EZ[lnp(X,Zμ,Σ,π)]=n=1Nk=1Kγ(znk){lnπk+lnN(xn μk,Σk)}

Dabei ist γ(znk) definiert als:

(2)πkN(xn μk,Σk)j=1KπjN(xn μj,Σj)

Wie beschrieben, besteht die Idee darin, ein Gaußsches Mischungsmodell zu betrachten, bei dem die Kovarianzmatrizen der Mischungskomponenten durch ϵI , wobei ϵ ein Varianzparameter ist, der von allen Komponenten gemeinsam genutzt wird, wie z Das:

(3)p(xμk,Σk)=1(2πϵ)M2exp{12ϵxμk2}

und so ist γ(znk) jetzt definiert als:

(4)πkexp{xnμk2/2ϵ}j=1Kπjexp{xnμj2/2ϵ}

Das Argument ist jetzt das folgende:

Wenn wir die Grenze , sehen wir im Nenner den Term, für den ist am kleinsten, geht am auf Null, und daher gehen die Verantwortlichkeiten für den Datenpunkt bis auf Term j alle auf Null. für die die Verantwortung zur Einheit geht. Somit erhalten wir in dieser Grenze eine harte Zuordnung von Datenpunkten zu Clustern, genau wie im Mittel-Algorithmus, so dassϵ0xnμj2γ(znk)xnγ(znk)Kγ(znk)rnk

Dabei ist definiert als:rnk

(5)f(n)={1if k=arg minjxnμj20otherwise

Meine Frage ist, wie das obige Argument gilt? Was bedeutet es nämlich, wenn ein Begriff auf Null geht ? Und wie führt das Setzen des Limits in Gleichung zu einer binären Verantwortung?most slowlyϵ04

BitRiver
quelle
1
Wenn auf Null geht, wird geht für alle auf Null , jedoch mit unterschiedlichen Geschwindigkeiten, abhängig von , dem kleinsten sammelt dann das gesamte Gewicht im Limit. ϵexp{xnμk2/2ϵ}=exp{δn/ϵ}nδnδn
Xi'an
1
(weitere Erklärung) Wenn Sie als kleinstes , können Sie alle Begriffe als , was bedeutet, dass alle Begriffe mit auf Null gehen außer einem, für den . δδnexp{(δδn)/ϵ}ϵδδn=0
Xi'an
@ Xi'an Möchtest du mehr Ausarbeitung geben? Was meinst du mit "das kleinste sammelt dann das gesamte Gewicht im Limit"? Und wie wird der Term, für den = 0 ist, zur Einheit ausgewertet? Ich meine, der Zähler ist 0, oder? δnδδn
BitRiver

Antworten:

8

Schreiben wir Dann Wenn wir , haben wir where Ausnahme von wobei

xnμk2=δk.
πkexp{xnμk2/2ϵ}j=1Kπjexp{xnμj2/2ϵ}=πkexp{δk/2ϵ}j=1Kπjexp{δj/2ϵ}
δ=minnδn,
πkexp{δk/2ϵ}j=1Kπjexp{δj/2ϵ}=πkexp{(δδk)/2ϵ}j=1Kπjexp{(δδj)/2ϵ}
δδk<0k=kδδk=0 . Also, für alle , , da für , , während kk
limϵ0πkexp{(δδk)/2ϵ}j=1Kπjexp{(δδj)/2ϵ}=limϵ0πkexp{(δδk)/2ϵ}πk+jkπjexp{(δδj)/2ϵ}=0
a>0
limϵ0exp{a/ϵ}=0
limϵ0πkexp{(δδk)/2ϵ}j=1Kπjexp{(δδj)/2ϵ}=limϵ0πk×1πk+jkπjexp{(δδj)/2ϵ}=1
Xi'an
quelle