Ich lese dieses Papier: Skype-Übersetzer, bei dem CD-DNN-HMMs (kontextabhängige tiefe neuronale Netze mit Hidden-Markov-Modellen) verwendet werden. Ich kann die Idee des Projekts und die Architektur, die sie entworfen haben, verstehen, aber ich verstehe nicht, was die Senone sind . Ich habe nach einer Definition gesucht, aber nichts gefunden
- Wir schlagen ein neuartiges kontextabhängiges (CD) Modell für die Spracherkennung mit großem Wortschatz (LVSR) vor, das die jüngsten Fortschritte bei der Verwendung von Deep-Believe-Netzwerken für die Telefonerkennung nutzt. Wir beschreiben eine vorab trainierte Hybridarchitektur des Deep Neural Network Hidden Markov-Modells (DNN-HMM), die das DNN trainiert, um eine Verteilung über Senone (gebundene Triphone-Zustände) als Ausgabe zu erzeugen
Bitte, wenn Sie mir eine Erklärung dazu geben könnten, würde ich es wirklich schätzen.
BEARBEITEN:
Ich habe diese Definition in diesem Artikel gefunden :
Wir schlagen vor , subphonetic Ereignisse mit Markov Zuständen und zu behandeln , den Zustand , in Laut Hidden - Markov - Modelle wie unsere Grund subphonetic Einheit zu modellieren - Senon . Ein Wortmodell ist eine Verkettung zustandsabhängiger Senone, und Senone können von verschiedenen Wortmodellen gemeinsam genutzt werden.
Ich denke, sie werden im ersten Artikel im Hidden Markov Model-Teil der Architektur verwendet. Sind sie die Staaten des HMM? Die Ausgänge des DNN?
Antworten:
Das habe ich endlich verstanden:
In dieser Architektur wird der DNN verwendet, um das Rauschen in Telefone umzuwandeln.
Die letzte Schicht des DNN wird von allen möglichen Telefonen gebildet, die ein Ausgangsneuron pro Telefon haben. Die Aktivierung dieser Neuronen ist die Wahrscheinlichkeit, dass das Eingangsrauschen diesem Telefon entspricht.
Die Kombination dieser Aktivierungen ist die Eingabe des Hidden-Markov-Modells und legt die Senone des HMM fest, das mithilfe eines Wörterbuchs eine Liste der Kandidatentexte erhält.
Die Senone sind die Zustände des HMM. In der folgenden Abbildung wären die Senone x1 x2 und x3.
Bitte korrigieren Sie mich, wenn ich etwas Falsches gesagt habe, hoffe es hilft!
quelle
In der Spracherkennung wird beim Modellieren eines bestimmten Telefons häufig ein Kontext zu benachbarten Telefonen berücksichtigt. Das bedeutet , dass unser System kennt nicht nur Handys für
A
,B
und so weiter, sondern hat ein Konzept fürE-then-A
,O-then-B
,X-then-A
und so weiter.Diese kontextabhängigen Einheiten werden in der Literatur als Senone bezeichnet , was natürlich ein erfundenes Wort ist.
Bei Spracherkennungssystemen entsprechen diese Senone normalerweise den HMM-Zuständen des akustischen Modells, die von einem neuronalen Netzwerk vorhergesagt werden können, wenn ein DNN / HMM-Hybridansatz für die akustische Modellierung verwendet wird.
Der Begriff Senones wurde von den Entwicklern des Janus-Spracherkennungs-Toolkits geprägt. Es wurde dann von Dong Yu und Li Deng für ihr ASR-Buch übernommen. Das war in der Zeit, bevor NNs für die akustische Modellierung verwendet wurden. Daher ist der Begriff verwirrend.
quelle
"Senones" wurde 1992 von mir benannt. Siehe mein ICASSP 1992-Papier: https://ieeexplore.ieee.org/document/225979 Es ist nur ein ausgefallener Name für eine Gruppe gemeinsamer Markov-Zustände, die ähnliche akustische Ereignisse darstellen. Es kam aus dem Kontrast zu den Fenones von IBM, wo "f" "Rahmen" und mein "s" "Zustand" bedeutet.
quelle
Die ursprüngliche Idee kam von meiner Eurospeech-Arbeit von 1991 (jetzt Interspeech genannt), bei der ich Top-Down-Clustering für Markov-Staaten verwendete. Sie finden meinen CMU-Technologiebericht von 1991 hier: https://www.semanticscholar.org/paper/Shared-distribution-hidden-Markov-models-for-speech-Hwang-Huang/33ea989f1655636162b7e9b8e0cfe3fcce92c37d
1992 beschloss ich, es auf Tree Clustering umzustellen, damit man auch unsichtbare CD-Telefone modellieren kann.
quelle