Warum verwenden wir nicht konstante Lernraten für anständige Gradienten für andere Dinge als neuronale Netze?

14

Deep-Learning-Literatur steckt voller cleverer Tricks bei der Verwendung nicht konstanter Lernraten beim Gradientenabstieg. Dinge wie Exponential Decay, RMSprop, Adagrad usw. sind einfach zu implementieren und in jedem Deep-Learning-Paket verfügbar, scheinen jedoch außerhalb neuronaler Netze nicht zu existieren. Gibt es einen Grund dafür? Wenn es den Menschen einfach egal ist, gibt es einen Grund, warum wir uns nicht außerhalb neuronaler Netze kümmern müssen?

Tim
quelle
2
Ich denke, Liniensuche oder Trust-Region-Methode sind "nicht konstante" Lernraten.
Haitao Du
2
Es gibt viele nicht konstante Gradientenmethoden, die unabhängig von NNs entwickelt wurden. Barzilai-Borwein GD und Nesterov GD sind zwei herausragende Beispiele.
Sycorax sagt Reinstate Monica
@Sycorax, aber werden sie tatsächlich täglich außerhalb der NNs verwendet?
Tim
2
@ Tim kann ich nicht sagen. Wenn ich eine lokale Suche außerhalb von NNs durchführen muss, habe ich den Luxus, Methoden zweiter Ordnung zu verwenden. Aber ich war aufgeregt, etwas über schnellere GD-Methoden zu lernen, damit ich einen niedlichen Trick in der Gesäßtasche habe.
Sycorax sagt Reinstate Monica
1
Es ist bemerkenswert, dass ich (zu meiner Überraschung) auf Fälle gestoßen bin, in denen GBMs keine konstanten Lernraten verwenden, etwas zur Überraschung der Menschen. Ein besonderes Beispiel war die Implementierung von DART auf LightGBM. Während die Originalarbeiten kein immer kleiner werdendes LR verwenden, erfolgt die eigentliche Implementierung standardmäßig.
usεr11852 sagt Reinstate Monic

Antworten:

16

Haftungsausschluss: Ich habe nicht so viel Erfahrung mit der Optimierung außerhalb neuronaler Netze, daher ist meine Antwort eindeutig voreingenommen, aber es gibt einige Dinge, die eine Rolle spielen:

  • (Tiefe) Neuronale Netze haben viele Parameter . Dies hat mehrere Auswirkungen:

    Erstens schließt es Methoden höherer Ordnung aus, nur weil die Berechnung von hessischen und höheren Derivaten nicht mehr möglich ist. In anderen Bereichen ist dies möglicherweise ein gültiger Ansatz, der besser ist als Änderungen an SGD.

    Zweitens, obwohl SGD wunderbar ist , neigt es dazu, unpraktisch langsam zu sein. Diese verbesserten SGD-Varianten ermöglichen hauptsächlich ein schnelleres Training, während möglicherweise einige der schönen Eigenschaften von SGD verloren gehen . In anderen Bereichen ist die SGD-Trainingszeit möglicherweise nicht der Engpass, sodass Verbesserungen, die durch eine Beschleunigung erzielt werden, möglicherweise einfach vernachlässigbar sind.

  • Das Trainieren (tiefer) neuronaler Netze ist keine konvexe Optimierung, und mir sind keine signifikanten Ergebnisse der konvexen Relaxation auf diesem Gebiet bekannt. Im Gegensatz zu anderen Bereichen konzentrieren sich neuronale Netze nicht auf nachweislich global optimale Lösungen, was dazu führt, dass mehr Anstrengungen in die Verbesserung der Eigenschaften der Verlustfläche und ihrer Durchquerung während der Optimierung investiert werden.

    In anderen Bereichen kann die Verwendung der konvexen Relaxation und das Erhalten global optimaler Lösungen im Mittelpunkt des Interesses stehen, anstatt des Optimierungsalgorithmus, da die Wahl des Optimierungsalgorithmus die Qualität der Lösung nicht verbessern kann, sobald das Problem als konvexes Problem definiert ist .

Ich nehme an, diese Antwort deckt nicht alle möglichen Aspekte ab und ich bin selbst neugierig auf andere Meinungen.

Jan Kukacka
quelle
Du sagst also im Grunde, dass andere Probleme viel einfacher sind, also brauchst du die Tricks nicht und Vanille-SGD ist genug für sie?
Tim
3
Das vereinfacht meine Botschaft. 1) Einige Probleme können Methoden höherer Ordnung verwenden, adaptive SGD sind nicht erforderlich. 2) Einige Probleme können aufgrund des Amdahlschen Gesetzes nicht von einer SGD-Verbesserung profitieren. 3) Einige Probleme können konvexe Lösungen bieten, und die Hauptschwierigkeit besteht darin, sie als konvex darzustellen. Keine dieser Aussagen besagt, dass andere Probleme viel einfacher sind als tiefes Lernen. Sie erklären vielmehr, warum die Verbesserung der SGD nicht im Mittelpunkt ihrer Aufmerksamkeit steht.
Jan Kukacka
Ein möglicher Punkt 4: Wenn Sie eine andere Methode gewählt und sie komplex genug gemacht hätten (hochdimensional, nichtlinear, nicht konvex), um von ausgeklügelten Gradientenabstiegsmethoden zu profitieren, würde sie wahrscheinlich als neuronales Netzwerk bezeichnet.
Nathaniel
1
@ JanKukacka Ich weiß, ich war auf der Suche nach Klarstellung, da Ihre Antwort indirekt war
Tim