Ich fand diese Notizen sehr hilfreich, um herauszufinden, was im ergänzenden Material vor sich ging.
Ich werde diese Fragen aus Gründen der Kontinuität etwas außer Betrieb beantworten.
Erstens: Warum ist es das?
θ(0)≠θ(1)
g0log(P(x;θ))θ(0)θ(1)g0θ
Zweitens: Warum ist die Ungleichung eng, wenn
Q(z)=P(z|x;θ)
In den Fußnoten gibt es einen Hinweis darauf, wo es heißt:
y=E[y]
QP(x,z;θ)Q(z)
P(x,z;θ)=P(z|x;θ)P(x;θ)
das macht unsere Fraktion
P(z|x;θ)P(x;θ)P(z|x;θ)=P(x;θ)
P(x;θ)zC
log(∑zQ(z)C)≥∑zQ(z)log(C)
Q(z)
gt
Die Antwort in den von mir verlinkten Anmerkungen unterscheidet sich geringfügig von der in den ergänzenden Anmerkungen, unterscheidet sich jedoch nur durch eine Konstante, und wir maximieren sie, damit sie keine Konsequenz hat. Der in den Notizen (mit Ableitung) ist:
gt(θ)=log(P(x|θ(t)))+∑zP(z|x;θ(t))log(P(x|z;θ)P(z|θ)P(z|x;θ(t))P(x|θ(t)))
Über diese komplexe Formel wird in den ergänzenden Anmerkungen nicht ausführlich gesprochen, wahrscheinlich weil viele dieser Begriffe Konstanten sind, die weggeworfen werden, wenn wir maximieren. Wenn Sie daran interessiert sind, wie wir überhaupt hierher kommen, empfehle ich die von mir verlinkten Notizen.
gt(θ(t))gt(θ(t))=logP(x|θ(t))