Warum führt eine Verringerung der SGD-Lernrate zu einer massiven Erhöhung der Genauigkeit?

8

In den Papieren, wie dies oft ich die Ausbildung Kurven mit dieser Art von Form sehen:

In diesem Fall wurde SGD mit einem Faktor von 0,9 verwendet und die Lernrate nahm alle 30 Epochen um den Faktor 10 ab.

Warum nimmt der Fehler so stark ab, wenn die Lernrate geändert wird?
Warum nimmt der Validierungsfehler nach dem ersten Abfall zu, während der Trainingsfehler weiter abnimmt?
Können die gleichen Ergebnisse erzielt werden, wenn die Änderungen der 2. und der nachfolgenden Lernrate näher zusammenrücken? Das heißt, warum sinkt die Verzögerung bei der weiteren Ausführung?

optimization geometrisch
quelle

5

Mit einer höheren Lernrate machen Sie größere Schritte in Richtung der Lösung. Wenn Sie sich jedoch in der Nähe befinden, können Sie über die Lösung springen. Im nächsten Schritt springen Sie erneut darüber und verursachen eine Schwingung um die Lösung. Wenn Sie nun die Lernrate richtig senken, stoppen Sie die Schwingung und fahren erneut mit der Lösung fort. Das heißt, bis Sie wieder anfangen zu schwingen. Zu beachten ist, dass eine größere Lernrate über kleinere lokale Minima springen und Ihnen helfen kann, bessere Minima zu finden, über die sie nicht springen kann. Außerdem wird im Allgemeinen der Trainingsfehler besser und der Validierungsfehler wird schlimmer, wenn Sie anfangen, die Trainingsdaten zu stark anzupassen.

Carl Rynegardh
quelle

2

Weil die geringere Lernrate es dem Optimierer ermöglicht, Sattelpunkten zu entkommen, was an jeder Klippe passiert, anstatt zu überschießen. Der Validierungsfehler oszillierte und näherte sich dem zweiten Sattelpunkt. Das Rauschen macht es schwierig festzustellen, dass es mit statistischer Signifikanz zugenommen hat, aber wenn dies der Fall wäre, könnte dies an einer Überanpassung liegen. Ich kenne kein Ergebnis, das die Trennung zwischen Sattelpunkten betrifft, daher könnte die Verzögerung beliebig sein. Irgendwann erreichen Sie natürlich den Boden.

Emre
quelle

Entschuldigung, meinst du, dass größeres Lernen es erlaubt, Sattelpunkten zu entkommen? Darüber spricht auch @Carl in der anderen Antwort?

HelloWorld

Nein, kleiner. Gleiches Thema. Stellen Sie sich vor, der Verteiler, der ein lokales Minimum mit einem anderen verbindet, befindet sich durch ein schmales Loch. Es ist unwahrscheinlich, dass Sie es durchmachen, wenn Sie große Schritte unternehmen.

Emre

Warum führt eine Verringerung der SGD-Lernrate zu einer massiven Erhöhung der Genauigkeit?

Antworten: