In dem technischen Bericht über Galahad [1] geben die Autoren im Zusammenhang mit allgemeinen nichtlinearen Programmierproblemen an:
Unserer Meinung nach gab es nie wirklich Zweifel daran, dass SQP-Methoden (Sequential Quadratic Programming) auf lange Sicht erfolgreicher sein würden [als Augmented Lagrangian-Methoden] ...
Was könnte die Grundlage für diesen Glauben sein? Gibt es theoretische Ergebnisse, die darauf hindeuten, dass SQP-Methoden schneller / zuverlässiger sein sollten als Augmented Lagrangian-Methoden?
[1] Galahad, eine Bibliothek threadsicherer Fortran 90-Pakete für die nichtlineare Optimierung in großem Maßstab von Gould, Orban und Toint
quelle
In Bezug auf äußere Iterationen sollte SQP gewinnen, da es Informationen der zweiten Ableitung enthält, während dies bei erweiterten Lagrange-Methoden wie ADMM nicht der Fall ist.
Beachten Sie jedoch, dass bei jeder Iteration für diese Methoden ein lineares System gelöst werden muss. Um einen fairen Vergleich zu ermöglichen, müssen Sie berücksichtigen, wie einfach diese Systeme zu lösen sind.
Bei erweiterten Lagrange-Methoden (alternierend) löst jede Iteration, die Sie lösen, so etwas wie wobei ein Vorwärtsoperator direkt aus der bekannten Zielfunktion ist und normalerweise einfacher zu handhaben ist oder Voraussetzung, und ist der Strafparameter. (z. B. ist Ihr Problem , das einigen Regularisierungen und Einschränkungen unterliegt).
Für SQP-Methoden lösen Sie etwas wie wobei der Hessische (oder eine Annäherung davon) ist, der normalerweise nur implizit in Bezug auf seine Wirkung auf Vektoren verfügbar ist, und der Gradient ist. Das Hessische enthält nicht nur , sondern auch eine Kombination anderer Matrizen und Matrixinversen, die sich aus der Linearisierung der Randbedingungen und der Regularisierung ergeben.
Das Vorkonditionieren von Hessen ist ein ziemlich kniffliges Geschäft und viel weniger erforscht als das Vorkonditionieren von Vorwärtsproblemen. Eine Standardmethode besteht darin, die hessische Inverse mit L-BFGS zu approximieren. Dies ist jedoch von begrenzter Wirksamkeit, wenn die hessische Inverse einen hohen Rang hat. Eine andere beliebte Methode besteht darin, den Hessischen als Summe einer niedrigrangigen Matrix plus einer leicht zu invertierenden Matrix zu approximieren, dies hat jedoch auch eine begrenzte Wirksamkeit bei schwierigen Problemen. Andere beliebte hessische Schätztechniken basieren auf spärlichen Näherungen, aber Kontinuumsprobleme haben oft hessische Näherungen mit schlechten spärlichen Näherungen.
quelle