Was ist der Grund, warum der Adam Optimizer für den Wert seiner Hyperparameter als robust angesehen wird?

24

Ich habe über den Adam-Optimierer für Deep Learning gelesen und bin in dem neuen Buch Deep Learning von Bengio, Goodfellow und Courville auf folgenden Satz gestoßen:

Adam wird allgemein als ziemlich robust gegenüber der Auswahl von Hyperparametern angesehen, obwohl die Lernrate manchmal von der vorgeschlagenen Standardeinstellung geändert werden muss.

Wenn dies zutrifft, ist es eine große Sache, da die Suche nach Hyperparametern (zumindest nach meiner Erfahrung) für die statistische Leistung eines Deep-Learning-Systems sehr wichtig sein kann. Meine Frage ist also, warum ist Adam Robust so wichtig? Speziell und β 2 ?β1β2

Ich habe das Adam-Papier gelesen und es liefert keine Erklärung, warum es mit diesen Parametern arbeitet oder warum es robust ist. Rechtfertigen sie das anderswo?

Während ich das Papier lese, scheint es auch so zu sein, dass die Anzahl der Hyperparameter, die sie ausprobiert haben, sehr gering ist, für nur 2 und für β 2 nur 3. Wie kann dies eine gründliche empirische Studie sein, wenn es nur mit 2x3 Hyperparametern funktioniert? ?β1β2

Charlie Parker
quelle
1
Senden Sie eine E-Mail an die Autoren des Buches, die den Anspruch geltend gemacht haben. Fragen Sie sie, worauf die Behauptung beruht.
Mark L. Stone
1
@ MarkL.Stone hat er nur gesagt, er hat es gesagt, weil die Zusammenfassung es gesagt hat. Kaum ein überzeugendes Argument. Vielleicht schicke ich das nächste Mal eine E-Mail an die Autoren des eigentlichen Artikels.
Charlie Parker
7
Und so wird Eigenwerbung Realität.
Mark L. Stone
@ MarkL. Zu seiner Verteidigung war er möglicherweise zu beschäftigt, um richtig zu antworten, und ich habe nur einen der drei Autoren kontaktiert. Vielleicht könnte ich mich mit den anderen in Verbindung setzen, aber ich bin nicht sicher, ob sie antworten werden, da (zumindest) einer Professor ist. Mit dem Hype in DL bekomme er täglich 300 E-Mails.
Charlie Parker
7
Nachdem das Buch erschienen ist, haben die Adam-Autoren die Bestätigung, wie großartig ihr Algorithmus ist. Erinnert mich an das Erdbeben in der Bay Area von 1989. Der Nachrichtensender berichtete unbestätigt über # Todesfälle beim Einsturz der Autobahn - er forderte eine Bestätigung durch das Gouverneursbüro. Dann riefen sie den Gouverneur an und fragten, ob er die Anzahl der Todesopfer bestätigen könne. Er sagte, das habe er gehört. Der Radiosender berichtete dann, dass sie nun eine Bestätigung vom Gouverneur hätten. Es stellte sich heraus, dass der Gouverneur gemeint hatte, dass er es, wie sich herausstellte, auf diesem Radiosender gehört hatte. Also, zirkuläre Bestätigung.
Mark L. Stone

Antworten:

7

In Bezug auf die Beweise in Bezug auf die Behauptung glaube ich, dass die einzigen Beweise, die die Behauptung stützen, in Abbildung 4 in ihrem Papier zu finden sind . Sie zeigen die Endergebnisse unter verschiedenen Werten für , β 2 und α .β1β2α

Persönlich finde ich ihre Argumentation nicht überzeugend, insbesondere weil sie nicht zu einer Vielzahl von Problemen führen. Mit dieser sagte, werde ich anmerken , dass ich für eine Vielzahl von Problemen , gebrauchten ADAM habe, und meine persönliche Erkenntnis ist , dass die Standardwerte von und β 2 haben überraschend zuverlässig scheinen, obwohl ein gutes Geschäft mit der dem Hantieren α erforderlich ist.β1β2 α

Cliff AB
quelle
5

β1β2

Dies steht im enormen Kontrast zu der stochastischen Gradientenabnahme mit Vanille, bei der:

  • Lernraten sind nicht pro Parameter, aber es gibt eine einzige globale Lernrate, die direkt auf alle Parameter angewendet wird
    • (Übrigens ist dies ein Grund, warum Daten vor dem Versenden in Netze häufig aufgehellt und normalisiert werden, um zu versuchen, die idealen Gewichtungen pro Parameter ähnlich zu halten.)
  • Die angegebene Lernrate ist die genaue verwendete Lernrate und wird sich mit der Zeit nicht anpassen

Adam ist nicht der einzige Optimierer mit adaptiven Lernraten. Wie das Adam-Papier selbst feststellt, ist es in hohem Maße mit Adagrad und Rmsprop verwandt, die auch extrem unempfindlich gegenüber Hyperparametern sind. Vor allem Rmsprop funktioniert ganz gut.

Aber Adam ist im Allgemeinen der Beste. Mit sehr wenigen Ausnahmen wird Adam tun, was Sie wollen :)

Es gibt einige ziemlich pathologische Fälle, in denen Adam nicht funktioniert, insbesondere bei einigen sehr instationären Verteilungen. In diesen Fällen ist Rmsprop eine hervorragende Standby-Option. Aber im Allgemeinen funktioniert Adam in den meisten nicht pathologischen Fällen sehr gut.

Hugh Perkins
quelle
1
β1,β2
Ja, wenn Sie meinen, gibt es hier die Möglichkeit, das Warum genauer zu untersuchen?
Hugh Perkins
2
Dies ist keine "tiefere Frage". Dies scheint einer der wichtigsten Punkte des Papiers zu sein, oder? Der springende Punkt ist, dass es Dinge von "selbst" tut, aber dann gibt es diese anderen Hyperparameter, die magisch robust zu sein scheinen. Das ist das Problem, das ich habe. Es scheint mir, dass es mit dem Kern des Papiers zusammenhängt, es sei denn, ich habe den Punkt von Adam falsch verstanden.
Charlie Parker
"Es gibt einige ziemlich pathologische Fälle, in denen Adam nicht funktioniert, insbesondere bei einigen sehr instationären Distributionen." <- irgendwelche Referenzen hier?
Mimoralea
0

Betrachtet man die ADAM-Formeln, so erscheint es ein wenig verwirrend, dass nach einer sehr großen Anzahl von Batch-Iterationen (sagen wir ~ 400k) die Größe des ursprünglichen fehlerbasierten Gradienten selbst ~ keine tatsächliche Rolle in dem Schritt spielt, der angestrebt zu werden scheint den Konfigurationsparameter für die Lernrate im entsprechenden Zeichen.
Vielleicht kontrolliert ADAM die Gewichtsanpassung besser als einfaches SGD während der ersten Iterationen / Epocs, aber in Zukunft scheint das Update auf etwas Naives reduziert zu sein (?) Kann jemand eine Vorstellung davon haben, warum das eigentlich erwünscht ist und / oder gut funktioniert?

Danny Rosen
quelle
Tatsächlich scheint die fehlerbasierte Gradientengröße selbst auch vom Anfang an keine wirkliche Rolle zu spielen. Die Frage ist, warum eine solche Normalisierung gut funktioniert und was dies für die GD-Intuition bedeutet, die DL und andere gängige Lernmodelle anleitet.
Danny Rosen