Beispiel für eine maximale a posteriori-Schätzung

11

Ich habe über Maximum-Likelihood-Schätzung und Maximum-A-Posteriori-Schätzung gelesen und bisher nur konkrete Beispiele mit Maximum-Likelihood-Schätzung getroffen. Ich habe einige abstrakte Beispiele für eine maximale a posteriori-Schätzung gefunden, aber noch nichts Konkretes mit Zahlen darauf: S.

Es kann sehr überwältigend sein, nur mit abstrakten Variablen und Funktionen zu arbeiten, und um nicht in dieser Abstraktheit zu ertrinken, ist es schön, von Zeit zu Zeit Dinge mit der realen Welt in Beziehung zu setzen. Aber das ist natürlich nur meine Beobachtung (und die einiger anderer Leute) :)

Könnte mir jemand ein einfaches, aber konkretes Beispiel für die Maximum-A-Posteriori-Schätzung mit Zahlen geben? Das würde sehr helfen :)

Vielen Dank!

Ich habe diese Frage ursprünglich auf MSE gepostet, konnte dort aber keine Antwort finden:

/math/449386/example-of-maximum-a-posteriori-estimation

Ich habe die Anweisungen hier beim Crossposting befolgt:

http://meta.math.stackexchange.com/questions/5028/how-do-i-move-a-post-to-another-forum-like-cv-stats

jjepsuomi
quelle

Antworten:

6

1. Beispiel

Ein typischer Fall ist das Markieren im Kontext der Verarbeitung natürlicher Sprache. Sehen Sie hier für eine ausführliche Erklärung. Die Idee ist im Grunde, die lexikalische Kategorie eines Wortes in einem Satz bestimmen zu können (ist es ein Substantiv, ein Adjektiv, ...). Die Grundidee ist, dass Sie ein Modell Ihrer Sprache haben, das aus einem Hidden-Markov-Modell ( HMM ) besteht. In diesem Modell entsprechen die verborgenen Zustände den lexikalischen Kategorien und die beobachteten Zustände den tatsächlichen Wörtern.

Das jeweilige grafische Modell hat die Form,

grafisches Modell eines kanonischen HMM

y=(y1,...,yN)x=(x1,...,xN)

Nach dem Training besteht das Ziel darin, die richtige Reihenfolge der lexikalischen Kategorien zu finden, die einem bestimmten Eingabesatz entsprechen. Dies wird so formuliert, dass die Sequenz von Tags gefunden wird, die am kompatibelsten sind / am wahrscheinlichsten vom Sprachmodell generiert wurden, d. H.

f(y)=argmaxxYp(x)p(y|x)

2. Beispiel

Ein besseres Beispiel wäre die Regression. Nicht nur, weil es leichter zu verstehen ist, sondern auch, weil die Unterschiede zwischen maximaler Wahrscheinlichkeit (ML) und Maximum a posteriori (MAP) deutlich werden.

t

y(x;w)=iwiϕi(x)
ϕ(x)w

t=y(x;w)+ϵ

p(t|w)=N(t|y(x;w))

E(w)=12n(tnwTϕ(xn))2

was die bekannte Fehlerlösung der kleinsten Quadrate ergibt. Jetzt ist ML geräuschempfindlich und unter bestimmten Umständen nicht stabil. Mit MAP können Sie bessere Lösungen finden, indem Sie die Gewichte einschränken. Ein typischer Fall ist beispielsweise die Gratregression, bei der Sie verlangen, dass die Gewichte eine möglichst kleine Norm haben.

E(w)=12n(tnwTϕ(xn))2+λkwk2

N(w|0,λ1I)

w=argminwp(w;λ)p(t|w;ϕ)

Beachten Sie, dass in MAP die Gewichte keine Parameter wie in ML sind, sondern Zufallsvariablen. Trotzdem sind sowohl ML als auch MAP Punktschätzer (sie geben einen optimalen Satz von Gewichten zurück, anstatt eine Verteilung von optimalen Gewichten).

jpmuc
quelle
+1 Hallo @juampa, danke für deine Antwort :) Aber ich suche immer noch nach dem konkreteren Beispiel :)
jjepsuomi
Nochmals vielen Dank @juampa. Wie würden Sie jetzt vorgehen, um die zu findenwwas minimiert das argmin? Verwenden Sie einen Gradienten oder einen iterativen Algorithmus wie die Newton-Methode usw.?
jjepsuomi
1
genau. Man könnte es direkt lösen (es gibt eine geschlossene Lösung), aber man muss eine Matrix invertierenÖ(n3). Und das ist der Grund für die Verwendung iterativer Methoden (insbesondere bei hochdimensionalen Problemen).
Jpmuc
Ist die erste Gleichung f(y)=einrGmeinxxX.p(x)p(y|x)?
Lerner Zhang