Ich habe theano zum Experimentieren mit LSTMs verwendet und mich gefragt, welche Optimierungsmethoden (SGD, Adagrad, Adadelta, RMSprop, Adam usw.) für LSTMs am besten funktionieren. Gibt es Forschungsarbeiten zu diesem Thema?
Hängt die Antwort auch von der Art der Anwendung ab, für die ich das LSTM verwende? In diesem Fall verwende ich LSTMs für die Textklassifizierung (wobei der Text zuerst in Wortvektoren konvertiert wird).
Wären die Antworten für RNNs identisch oder unterschiedlich? Hinweise auf Forschungsarbeiten oder persönliche Einsichten sind jederzeit willkommen!
LSTMs scheinen ziemlich leistungsfähig zu sein, und ich bin daran interessiert, mehr darüber zu erfahren, wie man sie am besten einsetzt.
quelle
Es gibt im Allgemeinen keine eindeutigen Hinweise darauf, welche Optimierungsmethode in welchem Szenario angewendet werden soll. Das Verhalten dieser Methoden unter verschiedenen Szenarien wurde analysiert, es ist jedoch nichts Schlüssiges dabei. Wenn du in dieses Zeug eintauchen willst, empfehle ich: http://papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dimensional-non-convex- optimierung.pdf
Um Ihnen zumindest eine gewisse Antwort zu geben, würde ich argumentieren, dass häufig die Konfiguration Ihrer Optimierungsroutine wichtiger ist als die eigentliche Routine.
Außerdem empfehle ich Ihnen, in den Unterlagen nachzusehen, welche Techniken verwendet werden. Alex Graves aus dem Beispiel hat in den meisten seiner Veröffentlichungen über das Generieren von Sequenzen RMSprop verwendet.
quelle