Ich denke, dies ist eine grundlegende Frage, die mit der Richtung des Gradienten selbst zu tun hat, aber ich suche nach Beispielen, bei denen Methoden 2. Ordnung (z. B. BFGS ) effektiver sind als eine einfache Gradientenabnahme.
optimization
Bar
quelle
quelle
Antworten:
Hier ist ein gemeinsamer Rahmen für die Interpretation von Gradientenabstieg und Newtons Methode. Dies ist möglicherweise eine nützliche Methode, um den Unterschied als Ergänzung zu @ Sycoraxs Antwort zu betrachten. (BFGS nähert sich Newtons Methode an. Ich werde hier nicht weiter darauf eingehen.)
Wir minimieren die Funktionf , wissen aber nicht, wie wir das direkt machen sollen. Also nehmen wir stattdessen eine lokale Approximation an unserem aktuellen Punkt x und minimieren diese.
Newtons Methode approximiert die Funktion unter Verwendung einer Taylor-Expansion zweiter Ordnung: wobei ∇ f ( x ) die Steigung von f am Punkt x und ∇ 2 f ( x ) das Hessische bei x bezeichnet . Es tritt dann an arg min y N x ( y ) und wiederholt.
Gradientenabstieg, der nur den Gradienten und nicht das Hessische hat, kann nicht einfach eine Annäherung erster Ordnung machen und diese minimieren, da es, wie @Hurkyl feststellte, kein Minimum gibt. Stattdessen definieren wir eine Schrittgröße und einen Schritt zu x - t ∇ f ( x ) . Beachten Sie jedoch, dass x - tt x - t ∇ f( x )
Somit minimiert der Gradientenabstieg eine Funktion
Gx(y):=f(x)+≤f(x)T(y-x)+1
Gradientenabstieg ist also ähnlich wie bei der Newtonschen Methode, aber anstatt die Taylor-Expansion zweiter Ordnung zu verwenden, geben wir vor, dass der Hessische Wert . DiesesGist oft eine wesentlich schlechtere Annäherung anfalsN, und daher macht der Gradientenabstieg oft viel schlechtere Schritte als die Newtonsche Methode. Dies wird natürlich dadurch ausgeglichen, dass jeder Schritt des Gradientenabfalls so viel billiger zu berechnen ist als jeder Schritt der Newtonschen Methode. Was besser ist, hängt ganz von der Art des Problems, Ihren Rechenressourcen und Ihren Genauigkeitsanforderungen ab.1tich G f N
Betrachten Sie das Beispiel von @ Sycorax zur Minimierung eines quadratischen
quelle
Im Wesentlichen besteht der Vorteil einer Methode der zweiten Ableitung wie der Newtonschen darin, dass sie die Qualität einer quadratischen Terminierung aufweist. Dies bedeutet, dass eine quadratische Funktion in einer endlichen Anzahl von Schritten minimiert werden kann. Eine Methode wie der Gradientenabstieg hängt stark von der Lernrate ab. Dies kann dazu führen, dass die Optimierung entweder langsam konvergiert, weil sie um das Optimum herum springt, oder vollständig divergiert. Stabile Lernraten sind zu finden ... aber es muss der Hessische berechnet werden. Selbst wenn Sie eine stabile Lernrate verwenden, können Sie Probleme wie das Schwingen um das Optimum haben, dh Sie gehen nicht immer einen "direkten" oder "effizienten" Weg zum Minimum. Das Beenden kann daher viele Iterationen dauern, auch wennSie sind relativ nah dran. Die Konvergenz von BFGS und Newton kann schneller erfolgen, obwohl der Rechenaufwand für jeden Schritt höher ist.
Zu Ihrer Anfrage nach Beispielen: Angenommen, Sie haben die objektive Funktion
Dies wird stabil sein, wenn die Größen der Eigenvektoren vonich- α A sind kleiner als 1. Wir können diese Eigenschaft verwenden, um zu zeigen, dass eine stabile Lernrate zufriedenstellend ist
Im spezifischen Kontext neuronaler Netze enthält das Buch Neural Network Design zahlreiche Informationen zu numerischen Optimierungsmethoden. Die obige Diskussion ist eine Zusammenfassung von Abschnitt 9-7.
quelle
Bei der konvexen Optimierung approximieren Sie die Funktion als Polynom zweiten Grades in einem eindimensionalen Fall:
In diesem Fall ist die zweite Ableitung
Wenn Sie die Derivate kennen, ist es einfach, die nächste Vermutung für das Optimum anzustellen:
Der multivariate Fall ist sehr ähnlich. Verwenden Sie nur Gradienten für Derivate.
quelle
@Dougal hat schon eine tolle technische Antwort gegeben.
Die nicht mathematische Erklärung lautet, dass während die lineare Approximation (Ordnung 1) eine "Ebene" liefert, die tangential zu einem Punkt auf einer Fehleroberfläche ist, die quadratische Approximation (Ordnung 2) eine Oberfläche liefert, die die Krümmung der Fehleroberfläche umgibt.
Die Videos auf diesem Link leisten einen großartigen Beitrag zur Visualisierung dieses Konzepts. Sie zeigen Annäherungen an die Funktionsoberfläche in der Reihenfolge 0, 1 und 2 an, wodurch nur intuitiv überprüft wird, was die anderen Antworten mathematisch darstellen.
Auch ein guter Blogpost zum Thema (angewendet auf neuronale Netze) ist hier .
quelle