Warum ein Mischungsmodell mit RNN verwenden, anstatt nur reale Werte direkt vorherzusagen?

Alex Graves hat ein Modell erstellt, um Handschriftsequenzen zu generieren, die ein LSTM (Art Recurrent Neural Network) verwenden, um die Parameter für ein Mischungsmodell vorherzusagen. Das Mischungsmodell wird dann verwendet, um die nächste x-, y-Koordinate vorherzusagen und ob der Stift nach oben oder unten zeigt.

Generieren von Sequenzen mit wiederkehrenden neuronalen Netzen

Demo von oben

Verwenden Sie das LSTM, um die Stiftversätze (x, Y) und das Auf / Ab-Flag direkt vorherzusagen. Warum sich mit dem Mischungsmodell beschäftigen?

machine-learning neural-networks gaussian-mixture lstm アンド
quelle

Sie könnten eine E-Mail senden und Alex fragen, ich weiß die Antwort wirklich nicht. Wenn ich dies tun würde, würde ich ein Mischungsmodell verwenden, wenn es mehrere Modi gibt. Bei der Zeichenerkennung ist jedes Zeichen ein einzelner Modus. Alle Kleinbuchstaben "c" gehören zum selben Stapel.

EngrStudent

Ich habe den Titel von "Warum verwendet Alex Graves ein Mischungsmodell mit seiner RNN, anstatt nur direkt vorhersagende reale Werte zu verwenden?" Geändert. Grundsätzlich hindert nichts Alex Graves daran, die Frage selbst zu beantworten, aber insbesondere nach zwei Jahren der Veröffentlichung scheint die allgemeinere Frage im überarbeiteten Titel besser für den Lebenslauf geeignet zu sein. (Ich habe keine Ahnung, was die Antwort ist!)

Nick Cox

Antworten:

Ich bin sehr neu in der Gegend, bitte nehmen Sie meine Kommentare mit Vorsicht!

Ich habe einen Vortrag von Alex in diesem Youtube-Kanal https://www.youtube.com/channel/UC0z_jCi0XWqI8awUuQRFnyw gesehen

In diesem Video war das erste Ziel von Alex, ein Simulationsmodell zu erstellen. Daher denke ich, dass die Ausgabe des gesuchten Modells eine Zufallsvariable ist.

Jedes Mal, wenn Sie das Modell um eine Simulation bitten, erhalten Sie unterschiedliche Ergebnisse (es sei denn, Sie setzen die Varianz auf 0, wie er es am Ende der Präsentation unter "Vorspannungsbeispiele" tut).

Ich denke auch, dass Sie, wenn Sie eine direkte Ausgabe haben (z. B. den Stift tatsächlich um 10 Pixel nach rechts bewegen), da es in der Struktur (sowohl Eingaben als auch NN-Struktur) keine stochastischen Komponenten gibt, in allen Fällen mit denselben Ergebnissen enden könnten.

Christophe Bonnefoy
quelle