Ich lerne etwas über HMMs und ihre Anwendungen und versuche, ihre Verwendung zu verstehen. Mein Wissen ist ein bisschen fleckig, also korrigieren Sie bitte alle falschen Annahmen, die ich mache. Das spezifische Beispiel, über das ich mich wundere, ist die Verwendung von HMMs zur Spracherkennung, was in der Literatur ein häufiges Beispiel ist.
Die grundlegende Methode scheint darin zu bestehen, die eingehenden Töne (nach der Verarbeitung) als Beobachtungen zu behandeln, wobei die tatsächlich gesprochenen Wörter die verborgenen Zustände des Prozesses sind. Es scheint offensichtlich, dass die versteckten Variablen hier nicht unabhängig sind, aber ich verstehe nicht, wie sie die Markov-Eigenschaft erfüllen. Ich würde mir vorstellen, dass die Wahrscheinlichkeit des N-ten Wortes nicht nur vom N-1-Wort abhängt, sondern von vielen vorhergehenden Wörtern davor.
Wird dies einfach als vereinfachende Annahme ignoriert, weil HMMs Spracherkennungsprobleme sehr gut korrekt modellieren können, oder verstehe ich die Zustände und versteckten Variablen im Prozess nicht klar? Das gleiche Problem scheint für viele Anwendungen zu gelten, bei denen HMMs sehr beliebt sind, POS-Tagging und so weiter.
Antworten:
Zu diesem Thema empfehle ich Ihnen, einen sehr guten Artikel von James Baker und anderen zu lesen, die tatsächlich für die Einführung von HMM in der Rede verantwortlich waren:
Eine historische Perspektive der Spracherkennung http://cacm.acm.org/magazines/2014/1/170863-a-historical-perspective-of-speech-recognition/abstract
Insgesamt ist das Markov-Modell ein ziemlich allgemeines Modell für die Decodierung von Black-Box-Kanälen mit einer sehr entspannten Annahme der Übertragung, sodass es perfekt für die Spracherkennung geeignet ist. Es bleibt jedoch die Frage, was tatsächlich als Zustand codiert werden soll. Es ist klar, dass Zustände komplexere Objekte sein sollten als das, was wir jetzt annehmen (nur wenige vorhergehende Wörter). Es ist eine laufende Forschung, um die wahre Natur einer solchen Struktur aufzudecken.
quelle
Hidden-Markov-Modelle wurden verwendet, um Phonemeinheiten in Wörtern für die Spracherkennung ab Ende der 1980er Jahre zu modellieren.
Ein früher zitierter Artikel ist [9] im Folgenden. Levinson, Ljolje, Miller, "Spracherkennung mit großem Wortschatz unter Verwendung eines versteckten Markov-Modells zur akustischen / phonetischen Klassifizierung" in Proc. IEEE Intl. Conf. Acoust., Speech, SIgnal Processing (New York, NY), 1988, S. S505-S508.
Entwicklung eines akustisch-phonetischen Hidden-Markov-Modells für die kontinuierliche Spracherkennung , Ljoljie, Levinson, IEEE Trans. on Signal Processing, Band 39, Nr. 1, Januar 1991
HMM-Modelle in der Spracherkennung De Mori & Fabio Brugnara. Allophone werden zum Modellieren von Wörtern über HMMs verwendet. "Allophonmodelle eines Phonems sind Modelle dieses Phonems in verschiedenen Kontexten. ... Jedes Allophonmodell ist ein HMM aus Zuständen, Übergängen und Wahrscheinlichkeitsverteilungen."
Ein Tutorial zur Verwendung versteckter Markov-Modelle zur Phonemerkennung Veeravalli, Pan, Adhami, Cox, System Theory, 2005. SSST '05. Verfahren des siebenunddreißigsten südöstlichen Symposiums vom März 2005, S. 154-157
Wikpedia-Abschnitt zu Hidden Markov-Modellen / Spracherkennung
quelle