Kürzlich habe ich einen Artikel von Yann Dauphin et al. Identifizierung und Angriff auf das Sattelpunktproblem bei der hochdimensionalen nichtkonvexen Optimierung , bei der ein interessanter Abstiegsalgorithmus namens " Sattelfreies Newton" eingeführt wird , der genau auf die Optimierung des neuronalen Netzwerks zugeschnitten zu sein scheint und nicht daran zu leiden hat, an Sattelpunkten hängen zu bleiben wie Methoden erster Ordnung als Vanille SGD.
Das Papier stammt aus dem Jahr 2014, es ist also nichts Neues, aber ich habe nicht gesehen, dass es "in the wild" verwendet wird. Warum wird diese Methode nicht angewendet? Ist die hessische Berechnung für reale Probleme / Netzwerke zu unerschwinglich? Gibt es überhaupt eine Open-Source-Implementierung dieses Algorithmus, die möglicherweise mit einigen der wichtigsten Deep-Learning-Frameworks verwendet werden kann?
Update Februar 2019: Eine Implementierung ist ab sofort verfügbar: https://github.com/dave-fernandes/SaddleFreeOptimizer )
quelle
Antworten:
Bessere Optimierung bedeutet nicht unbedingt ein besseres Modell. Letztendlich geht es uns darum, wie gut sich das Modell verallgemeinert und nicht unbedingt wie gut die Leistung auf dem Trainingsset ist. Anspruchsvollere Optimierungstechniken sind in der Regel leistungsfähiger und konvergieren im Trainingssatz schneller, verallgemeinern jedoch nicht immer die grundlegenden Algorithmen. Zum Beispiel zeigt dieses Papier , dass SGD besser generalisieren kann als der ADAM-Optimierer. Dies kann auch bei einigen Optimierungsalgorithmen zweiter Ordnung der Fall sein.
[Bearbeiten] Der erste Punkt wurde entfernt, da er hier nicht gilt. Vielen Dank an bayerj für den Hinweis.
quelle