Es scheint, dass der Optimierer für die adaptive Momentschätzung (Adam) fast immer besser funktioniert (schneller und zuverlässiger, wenn ein globales Minimum erreicht wird), wenn die Kostenfunktion beim Trainieren neuronaler Netze minimiert wird.
Warum nicht immer Adam benutzen? Warum sollte man sich überhaupt die Mühe machen, RMSProp oder Impulsoptimierer zu verwenden?
neural-network
optimization
PyRsquared
quelle
quelle
Antworten:
Hier ist ein Blog-Beitrag, in dem ein Artikel besprochen wird, in dem behauptet wird, SGD sei ein besser verallgemeinerter Adapter als ADAM. https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/
Es ist oft sinnvoll, mehrere Methoden (ein Ensemble) zu verwenden, da jede Methode eine Schwäche aufweist.
quelle
Schauen Sie sich auch diesen Beitrag an, in dem Sie verschiedene Optimierer für den Verlaufsabstieg vergleichen. Wie Sie unten sehen können, ist Adam eindeutig nicht der beste Optimierer für einige Aufgaben, da viele besser zusammenlaufen.
quelle