Warum sind HMMs für die Spracherkennung geeignet, wenn das Problem die Markov-Eigenschaft nicht zu erfüllen scheint?

7

Ich lerne etwas über HMMs und ihre Anwendungen und versuche, ihre Verwendung zu verstehen. Mein Wissen ist ein bisschen fleckig, also korrigieren Sie bitte alle falschen Annahmen, die ich mache. Das spezifische Beispiel, über das ich mich wundere, ist die Verwendung von HMMs zur Spracherkennung, was in der Literatur ein häufiges Beispiel ist.

Die grundlegende Methode scheint darin zu bestehen, die eingehenden Töne (nach der Verarbeitung) als Beobachtungen zu behandeln, wobei die tatsächlich gesprochenen Wörter die verborgenen Zustände des Prozesses sind. Es scheint offensichtlich, dass die versteckten Variablen hier nicht unabhängig sind, aber ich verstehe nicht, wie sie die Markov-Eigenschaft erfüllen. Ich würde mir vorstellen, dass die Wahrscheinlichkeit des N-ten Wortes nicht nur vom N-1-Wort abhängt, sondern von vielen vorhergehenden Wörtern davor.

Wird dies einfach als vereinfachende Annahme ignoriert, weil HMMs Spracherkennungsprobleme sehr gut korrekt modellieren können, oder verstehe ich die Zustände und versteckten Variablen im Prozess nicht klar? Das gleiche Problem scheint für viele Anwendungen zu gelten, bei denen HMMs sehr beliebt sind, POS-Tagging und so weiter.

bald
quelle
1
Bei der Spracherkennung werden die HMMs normalerweise verwendet, um Phoneme in diesen Modellen zu modellieren, nicht Wörter, und bei Phonemen ist das HMM-Modell empirisch ziemlich naheliegend. Vielleicht werden Ref (s)
ausgegraben,

Antworten:

8

Zu diesem Thema empfehle ich Ihnen, einen sehr guten Artikel von James Baker und anderen zu lesen, die tatsächlich für die Einführung von HMM in der Rede verantwortlich waren:

Eine historische Perspektive der Spracherkennung http://cacm.acm.org/magazines/2014/1/170863-a-historical-perspective-of-speech-recognition/abstract

Die Verwendung von Markov-Modellen zur Darstellung von Sprachkenntnissen war umstritten. Linguisten wussten, dass keine natürliche Sprache auch nur durch kontextfreie Grammatik dargestellt werden kann, geschweige denn durch eine endliche Grammatik. In ähnlicher Weise bezweifelten Experten für künstliche Intelligenz, dass ein so einfaches Modell wie ein Markov-Prozess nützlich sein würde, um die im Newell-Bericht empfohlenen Wissensquellen auf höherer Ebene darzustellen. Es gibt jedoch einen grundlegenden Unterschied zwischen der Annahme, dass die Sprache selbst ein Markov-Prozess ist, und der Modellierungssprache als probabilistische Funktion eines versteckten Markov-Prozesses. Das letztere Modell ist eine Approximationsmethode, die keine Annahme über die Sprache macht, sondern dem Designer ein Rezept für die Auswahl der Darstellung im verborgenen Prozess liefert. Die endgültige Eigenschaft eines Markov-Prozesses ist, dass In Anbetracht des aktuellen Zustands sind die Wahrscheinlichkeiten zukünftiger Ereignisse unabhängig von zusätzlichen Informationen über die Vergangenheit des Prozesses. Diese Eigenschaft bedeutet, dass der Designer diese Informationen im verborgenen Prozess mit unterschiedlichen Zuständen codieren sollte, wenn Informationen über die Vergangenheit des beobachteten Prozesses vorhanden sind (z. B. die beobachteten Wörter und Unterworteinheiten). Es stellte sich heraus, dass jede der Ebenen der Newell-Hierarchie als probabilistische Funktion eines Hidden-Markov-Prozesses in angemessener Näherung dargestellt werden konnte. Für die heutige Sprachmodellierung auf dem neuesten Stand der Technik verwenden die meisten Systeme immer noch die statistischen N-Gramm-Sprachmodelle und die Varianten, die mit den grundlegenden Zähl- oder EM-Techniken trainiert wurden. Diese Modelle haben sich als bemerkenswert leistungsstark und belastbar erwiesen. Jedoch, Das N-Gramm ist ein sehr vereinfachtes Modell für eine realistische menschliche Sprache. In ähnlicher Weise haben wiederkehrende neuronale Netze mit Deep Learning zur signifikanten Verbesserung der akustischen Modellierungsqualität auch das N-Gramm-Sprachmodell signifikant verbessert. Es ist erwähnenswert, dass nichts besser ist als eine massive Textkorpora, die der Anwendungsdomäne für die meisten realen Sprachanwendungen entspricht.

Insgesamt ist das Markov-Modell ein ziemlich allgemeines Modell für die Decodierung von Black-Box-Kanälen mit einer sehr entspannten Annahme der Übertragung, sodass es perfekt für die Spracherkennung geeignet ist. Es bleibt jedoch die Frage, was tatsächlich als Zustand codiert werden soll. Es ist klar, dass Zustände komplexere Objekte sein sollten als das, was wir jetzt annehmen (nur wenige vorhergehende Wörter). Es ist eine laufende Forschung, um die wahre Natur einer solchen Struktur aufzudecken.

Nikolay Shmyrev
quelle
1
Vielen Dank! Eine der Möglichkeiten, die mir gekommen waren, war, dass Informationen über frühere Zustände in irgendeiner Weise im aktuellen Zustand enthalten waren.
bald
3

Hidden-Markov-Modelle wurden verwendet, um Phonemeinheiten in Wörtern für die Spracherkennung ab Ende der 1980er Jahre zu modellieren.

vzn
quelle
Vielen Dank! Ich habe den ersten Absatz des Abschnitts auf Wikipedia völlig verpasst, was die Dinge klarer gemacht hätte. Vielen Dank für die Mühe, auch die Links zusammenzustellen.
bald