Frage zur Verwendung von EM zur Schätzung der Parameter dieses Modells

8

Ich versuche, EM zu verstehen und Parameter dieses Modells mit dieser Technik abzuleiten, habe aber Probleme zu verstehen, wie ich anfangen soll:

Ich habe also ein gewichtetes lineares Regressionsmodell wie folgt, wobei ich Beobachtungen und die entsprechenden Beobachtungen . Das Modell der Beziehung zwischen und ist ein gewichtetes lineares Regressionsmodell, und die Verteilungsannahmen lauten wie folgt:Y = ( y 1 , y 2 . . . . Y n ) X YX=(xi,x2....xn)Y=(y1,y2....yn)XY

βN(0,Σβ)wiG(a,b)

yiN(βTxi,σ2wi)
βN(0,Σβ)
wiG(a,b)

Hier sind die Regressionsparameter und das Modell ermöglicht ungleiche Varianzen, indem die Antwortvariablen individuelle Gewichte für die Varianz haben. Mein Ziel ist es, die wahrscheinlichste lineare Beziehung zu finden, die durch die Parameter .βββ

Daher kann ich das Log-Posterior wie folgt schreiben:

logP(Y,β,w|X)=i=1n(logP(yi|xi,β,wi)+logP(wi))+logP(β)

Jetzt habe ich versucht, EM zu verstehen und bin mir nicht sicher, ob mein Verständnis noch vollständig ist. Um die Parameter abzuschätzen, gehe ich zunächst von der Erwartung der log-posterioren Verteilung in Bezug auf die latenten / versteckten Parameter, die in meinem Fall und . Dieser erforderliche erwartete Wert ist also:logP(Y,β,w|X)βw

P(β,w|X)logP(Y,β,w|X)dwdβ

Ich habe jedoch keine Ahnung, wie ich von hier aus vorgehen soll, um diese Erwartung zu berechnen. Würde mich sehr über Vorschläge freuen, was der nächste Schritt sein sollte. Ich suche nicht jemanden, der mir alle notwendigen Dinge ableitet, sondern nur einen Anstoß in die richtige Richtung, was ich in den nächsten Schritten lösen soll.

Luca
quelle
Sind Sie sicher, dass EM wie in Expectation-Maximization für Ihr Problem gilt?
Xi'an
Ich glaube schon. Ich versuche ein Papier zu verstehen und sie verwenden EM zur Lösung dieses gewichteten Bayes'schen linearen Regressionsproblems.
Luca
Die latenten Variablen können nicht und die . Wenn Sie an interessiert sind , sind die latenten Variablen vermutlich die . In diesem Fall müssen Sie die erwartete vollständige Log-Likelihood -Funktion des E-Schritts finden und in im M-Schritt optimieren . βwiβwiQ(β|β0)β
Xi'an
Vielen Dank für Ihren Kommentar. Wenn ich versuchen darf zu klären, erwähnt das Papier, dass wir daran interessiert sind, die unvollständige Log-Wahrscheinlichkeit maximieren, aber wir arbeiten mit der vollständigen Datenwahrscheinlichkeit, die gegeben ist durch: , was für mich wie die hintere Verteilung in diesem Setup aussah. Daher habe ich angenommen, dass in diesem Setup als versteckte Variable behandelt wird. logp(Y|X)logP(y,w,β|X)β
Luca
2
Wie viel wissen Sie bereits über den EM-Algorithmus? Welches Buch oder Papier hast du darüber studiert? In einem solchen Forum von vorne anzufangen, klingt nach einer schlechten Idee.
Xi'an

Antworten:

3

Lassen Sie mich zunächst an die Grundlagen des EM-Algorithmus erinnern. Bei der Suche nach der Maximum-Likelihood-Schätzung einer Wahrscheinlichkeit der Form fährt der Algorithmus fort, indem er iterativ (M) erwartete (E) vollständige Log-Wahrscheinlichkeiten maximiert, die bei der Maximierung der Ergebnisse (in ) bei Iteration die Funktion Der Algorithmus muss daher zunächst die latente Variable und ihre bedingte Verteilung identifizieren .

f(x,z|β)dz,
βt
Q(β|βi)=logf(x,z|β)f(z|x,βt)dz
z

In Ihrem Fall scheint die latente Variable aus den , während der interessierende Parameter . Wenn Sie sowohl als auch als latente Variablen verarbeiten, müssen keine Parameter mehr optimiert werden. Dies bedeutet jedoch auch, dass der Prior on nicht verwendet wird.ϖwiββϖβ

Wenn wir den Fall von genauer , ist seine bedingte Verteilung gegeben durch das als 1/2 Verteilung.wi

f(wi|xi,yi,β)wiexp{wi(yiβTxi)2/2σ2}×wia1exp{bwi}
G(a+1/2,b+(yiβTxi)2/2σ2)

Die abgeschlossene Log-Wahrscheinlichkeit ist der Teil, der davon abhängt on vereinfacht sich als und die Funktion ist proportional zu Maximieren dieser Funktion in entspricht einer gewichteten linearen Regression mit Gewichten

i12{log(wi)wi(yiβTxi)2/σ2}
β
iwi(yiβTxi)2/2σ2
Q(β|βt)
E[iwi(yiβTxi)2|X,Y,βt]=iE[wi|X,Y,βt](yiβTxi)2=ia+1/2b+(yiβtTxi)2/2σ2(yiβTxi)2
β
a+1/2b+(yiβtTxi)2/2σ2
Xi'an
quelle
Vielen Dank dafür und ich werde dies rigoros durchgehen. Diese Arbeit, die ich mir anschaue, behandelt als versteckte Variable. Sie erwähnen, dass sie die Erwartung mit der ungefähren Form des hinteren annehmen, die sich als . Also dieses bisschen hat mich wirklich verwirrt ...βQ(β,w)Q(w)Q(β)
Luca
1
Wenn Sie sowohl als auch als latente Variablen behandeln, ist kein Parameter mehr vorhanden ...βw
Xi'an
1
Vielleicht haben sie eine MAP-Schätzung anstelle einer ML-Schätzung. Wenn ich versuche, dies als MAP-Schätzung neu zu formulieren, schätze ich, dass die vorherige Verteilung von ins Spiel kommen würde? β
Luca
1
Eine sehr schnelle Sache ... Ich bin nicht sicher, ob Sie dies sehen, aber wenn Sie die Gleichung für die vollständige Log-Wahrscheinlichkeit haben, ist der erste Term nicht ? Ich vermute auch, dass der von Ihnen gezeigte Begriff die Log-Wahrscheinlichkeit ist, die proportional zu einer Konstanten ist. Ich bin immer verwirrt, wenn Dinge in Konstanten aufgerollt werden. log(wi)
Luca
1
Korrektur vorgenommen: Ich setze vor den gesamten Ausdruck. 1/2
Xi'an