Was sind die Vorteile, warum sollte man mehrere nebeneinander gestapelte LSTMs in einem tiefen Netzwerk verwenden? Ich verwende einen LSTM, um eine Folge von Eingaben als eine einzige Eingabe darzustellen. Also, wenn ich diese einzige Darstellung habe - warum sollte ich sie noch einmal durchgehen?
Ich frage dies, weil ich dies in einem Programm zur Erzeugung natürlicher Sprachen gesehen habe.
classification
neural-networks
deep-learning
lstm
rnn
wordSmith
quelle
quelle
Antworten:
Ich denke, dass Sie sich auf vertikal gestapelte LSTM-Schichten beziehen (vorausgesetzt, die horizontalen Achsen sind die Zeitachse).
In diesem Fall besteht der Hauptgrund für das Stapeln von LSTM darin, eine größere Modellkomplexität zu ermöglichen. Im Falle eines einfachen Feedforward-Netzes stapeln wir Schichten, um eine hierarchische Merkmalsdarstellung der Eingabedaten zu erstellen, die dann für einige maschinelle Lernaufgaben verwendet werden. Gleiches gilt für gestapelte LSTMs.
Zu jedem Zeitschritt ein LSTM, neben der wiederkehrenden Eingabe. Wenn die Eingabe bereits das Ergebnis einer LSTM-Schicht (oder einer Feedforward-Schicht) ist, kann die aktuelle LSTM eine komplexere Feature-Darstellung der aktuellen Eingabe erstellen.
Der Unterschied zwischen einer Vorwärtskopplungsschicht zwischen der Merkmalseingabe und der LSTM-Schicht und einer anderen LSTM-Schicht besteht darin, dass eine Vorwärtskopplungsschicht (z. B. eine vollständig verbundene Schicht) keine Rückmeldung von ihrem vorherigen Zeitschritt erhält und daher nicht sicher berücksichtigt werden kann Muster. Anstelle eines LSTM (z. B. unter Verwendung einer gestapelten LSTM-Darstellung) können komplexere Eingabemuster auf jeder Schicht beschrieben werden
quelle
Von {1}:
Zu Ihrer Information:
Verweise:
quelle
Das Herumspielen mit LSTM für die Sequenzklassifizierung hatte den gleichen Effekt wie das Erhöhen der Modellkapazität in CNNs (wenn Sie mit diesen vertraut sind). Sie erhalten also auf jeden Fall Gewinne, insbesondere wenn Sie Ihre Daten nicht ausreichen.
Natürlich zweischneidig, da man auch überanstrengen und schlechter abschneiden kann. In meinem Fall bin ich von 1 LSTM auf einen Stapel von 2 übergegangen und habe so ziemlich sofort eine Verbesserung erzielt.
quelle