Bedeutung der anfänglichen Übergangswahrscheinlichkeiten in einem Hidden-Markov-Modell

11

Was sind die Vorteile der Angabe bestimmter Anfangswerte für Übergangswahrscheinlichkeiten in einem Hidden-Markov-Modell? Irgendwann wird das System sie lernen. Was bringt es also, andere als zufällige Werte anzugeben? Macht der zugrunde liegende Algorithmus einen Unterschied wie Baum-Welch?

Was würden Sie mir raten, wenn ich die Übergangswahrscheinlichkeiten zu Beginn sehr genau kenne und mein Hauptzweck darin besteht, Ausgabewahrscheinlichkeiten vom verborgenen Zustand bis zu Beobachtungen vorherzusagen?

metdos
quelle

Antworten:

7

Baum-Welch ist ein Optimierungsalgorithmus zur Berechnung des Maximum-Likelihood-Schätzers. Für versteckte Markov-Modelle kann die Wahrscheinlichkeitsfläche ziemlich hässlich sein, und sie ist sicherlich nicht konkav. Mit guten Startpunkten kann der Algorithmus schneller und in Richtung MLE konvergieren.

Wenn Sie die Übergangswahrscheinlichkeiten bereits kennen und versteckte Zustände mit dem Viterbi-Algorithmus vorhersagen möchten, benötigen Sie die Übergangswahrscheinlichkeiten. Wenn Sie sie bereits kennen, müssen Sie sie mit Baum-Welch nicht neu schätzen. Die Neuschätzung ist rechenintensiver als die Vorhersage.

NRH
quelle
3

Einige der Materialien zu anfänglichen Schätzungen von HMM sind in angegeben

Lawrence R. Rabiner (Februar 1989). "Ein Tutorial zu Hidden Markov-Modellen und ausgewählten Anwendungen in der Spracherkennung". Verfahren des IEEE 77 (2): 257–286. doi: 10.1109 / 5.18626 (Abschnitt VC)

Sie können sich auch das Probabilistic Modeling Toolkit für Matlab / Octave ansehen , insbesondere die hmmFitEm- Funktion, in der Sie Ihren eigenen Anfangsparameter des Modells angeben oder einfach nur (Option 'nrandomRestarts') verwenden können. Bei Verwendung von 'nrandomRestarts' verwendet das erste Modell (im Init-Schritt):

  • Passen Sie eine Mischung von Gaußschen über MLE / MAP (unter Verwendung von EM) an, um fortlaufende Daten zu erhalten.
  • Passen Sie eine Mischung aus Produkten diskreter Verteilungen über MLE / MAP (unter Verwendung von EM) für diskrete Daten an.

Das zweite, dritte Modell ... (im Init-Schritt) verwendet zufällig initialisierte Parameter und konvergiert daher langsamer mit meist niedrigeren Log-Likelihood-Werten.

Sergey
quelle