Ich unterrichte eine Umfrageklasse zur numerischen Analyse und suche nach Motivation für die BFGS-Methode für Studenten mit begrenztem Hintergrund / Intuition in der Optimierung!
Ich habe zwar keine Zeit, konsequent zu beweisen, dass alles konvergiert, aber ich möchte eine angemessene Motivation dafür geben, warum das BFGS-Hessian-Update erscheinen könnte. Als Analogie (ist meine writeup Broyden Root - Findungsmethode hier ) kann mit der Frage , dass Ihre aktuelle Angleichung der Jacobi minimiert die Differenz motiviert werden mit dem alten Jacobi mit der Einschränkung , dass es berücksichtigt den letzten Sekanten: .
Ableitungen von BFGS-Updates wirken weitaus komplizierter und trüber! Insbesondere würde Ich mag sie nicht davon ausgehen , a priori , dass das Update Rang-2 oder nehmen eine besondere Form sein sollte. Gibt es für das BFGS-Hessian-Update eine kurze variantenhafte Motivation wie für Broyden?
quelle
Antworten:
Die Ableitung des BFGS ist intuitiver, wenn man (streng) konvexe Kostenfunktionen betrachtet:
Einige Hintergrundinformationen sind jedoch erforderlich: Angenommen, man möchte eine konvexe Funktion minimieren Angenommen, es gibt eine ungefähre Lösung . Dann approximiert man das Minimum von durch das Minimum der abgeschnittenen Taylor-Expansion Das heißt, man sucht nach so dass minimal ist und setzt . Die Berechnung des Gradienten von - "in Bezug auf " und das Setzen auf Null ergibt die Beziehung x k f f ( x k + p ) ≈ f ( x k ) + ∇ f ( x k ) T p + 1
Da die Berechnung und Inversion des Hessischen teuer ist ...
... eine kurze Antwort
(vgl. Broydens Update) könnte sein, dass das BFGS-Update in einer intelligent gewählten gewichteten Frobenius-Norm minimiert , unterliegen ≤ H - 1 k - H - 1 ≤ WH- 1k + 1
Dann ist die Wahl des Gewichts inW ∥ H∥W: = ∥ W1 / 2HW1/ 2∥F
G : = ∫10H( xk+ τp ) dτ αk= 1
als Inverse desgemittelten Hessischen , vgl. Hier für die Anweisung, aber ohne Beweis, gibt die BFGS-Aktualisierungsformel an (mit ).Die wichtigsten Punkte sind:
Eine längere Antwort sollte enthalten, wie die Gewichte ausgewählt werden, wie dies bei nicht konvexen Problemen funktioniert (wenn eine Krümmungsbedingung auftritt, die eine Skalierung der Suchrichtung erfordert ) und wie die Formel für die Aktualisierung tatsächlich abgeleitet wird. Eine Referenz finden Sie hier .p
quelle