1. Beispiel
Ein typischer Fall ist das Markieren im Kontext der Verarbeitung natürlicher Sprache. Sehen Sie hier für eine ausführliche Erklärung. Die Idee ist im Grunde, die lexikalische Kategorie eines Wortes in einem Satz bestimmen zu können (ist es ein Substantiv, ein Adjektiv, ...). Die Grundidee ist, dass Sie ein Modell Ihrer Sprache haben, das aus einem Hidden-Markov-Modell ( HMM ) besteht. In diesem Modell entsprechen die verborgenen Zustände den lexikalischen Kategorien und die beobachteten Zustände den tatsächlichen Wörtern.
Das jeweilige grafische Modell hat die Form,
y=(y1,...,yN)x=(x1,...,xN)
Nach dem Training besteht das Ziel darin, die richtige Reihenfolge der lexikalischen Kategorien zu finden, die einem bestimmten Eingabesatz entsprechen. Dies wird so formuliert, dass die Sequenz von Tags gefunden wird, die am kompatibelsten sind / am wahrscheinlichsten vom Sprachmodell generiert wurden, d. H.
f(y)=argmaxx∈Yp(x)p(y|x)
2. Beispiel
Ein besseres Beispiel wäre die Regression. Nicht nur, weil es leichter zu verstehen ist, sondern auch, weil die Unterschiede zwischen maximaler Wahrscheinlichkeit (ML) und Maximum a posteriori (MAP) deutlich werden.
t
y(x;w)=∑iwiϕi(x)
ϕ(x)w
t=y(x;w)+ϵ
p(t|w)=N(t|y(x;w))
E(w)=12∑n(tn−wTϕ(xn))2
was die bekannte Fehlerlösung der kleinsten Quadrate ergibt. Jetzt ist ML geräuschempfindlich und unter bestimmten Umständen nicht stabil. Mit MAP können Sie bessere Lösungen finden, indem Sie die Gewichte einschränken. Ein typischer Fall ist beispielsweise die Gratregression, bei der Sie verlangen, dass die Gewichte eine möglichst kleine Norm haben.
E(w)=12∑n(tn−wTϕ(xn))2+λ∑kw2k
N(w|0,λ−1I)
w=argminwp(w;λ)p(t|w;ϕ)
Beachten Sie, dass in MAP die Gewichte keine Parameter wie in ML sind, sondern Zufallsvariablen. Trotzdem sind sowohl ML als auch MAP Punktschätzer (sie geben einen optimalen Satz von Gewichten zurück, anstatt eine Verteilung von optimalen Gewichten).