Ich versuche zu verstehen, wie die adjungierte Optimierungsmethode für eine PDE-beschränkte Optimierung funktioniert. Insbesondere versuche ich zu verstehen, warum die adjungierte Methode bei Problemen effizienter ist, bei denen die Anzahl der Entwurfsvariablen groß ist, die "Anzahl der Gleichungen jedoch klein".
Was ich verstehe:
Betrachten Sie das folgende Optimierungsproblem mit eingeschränkter PDE:
wobei eine (ausreichend kontinuierliche) Zielfunktion einer Vektorentwurfsvariablen und eines Vektors von Feldvariablen unbekannt die von den Entwurfsvariablen abhängen, und die Restform der PDE ist.
Klar, wir können die ersten Variationen von I und R als
Durch Einführung eines Vektors von Lagrange-Multiplikatoren kann die Variation der Zielfunktion wie folgt geschrieben werden
Wenn wir Begriffe neu ordnen, können wir schreiben:
Wenn wir also in der Lage sind, nach zu lösen, so dass
Dann wird der Gradient ausgewertet nur in Bezug auf die Designvariablen .
Somit würde ein adjungierter Optimierungsalgorithmus die folgenden Schritte durchlaufen:
- Angesichts der aktuellen Designvariablen
- Löse nach den Feldvariablen (aus der PDE)
- Löse nach den Lagrange-Multiplikatoren (aus der nebenstehenden Gleichung)
- Berechnen Sie die Farbverläufe
- Designvariablen
Meine Frage
Wie verbessert dieser zusätzliche Trick die Kosten für die Optimierung pro Iteration, wenn die Anzahl der Entwurfsvariablen groß ist? Ich habe gehört, dass die Kosten für die Gradientenbewertung für die adjungierte Methode "unabhängig" von der Anzahl der Entwurfsvariablen sind. Aber wie genau ist das wahr?
Ich bin sicher, es gibt etwas sehr Offensichtliches, das ich irgendwie übersehen habe.
quelle
Antworten:
Ich denke über die Kosten aus der Perspektive der linearen Algebra nach. (Siehe diese Notizen von Stephen G. Johnson , die ich intuitiver finde als den Lagrange-Multiplikator-Ansatz). Der Forward-Ansatz läuft darauf hinaus, Sensitivitäten direkt zu lösen:
Dabei wird für jeden Parameter im Vektor ein lineares System gelöst und anschließend ausgewertetβ
Dabei bezeichnet eine Gesamtableitung und eine partielle Ableitung.d ∂
Der adjungierte Ansatz stellt fest, dass
so kann die adjungierte Variable (Lagrange-Multiplikator) definiert werden durchλ
was der adjungierten Gleichung entspricht
Diese Umgruppierung von Begriffen erfordert nur eine lineare Lösung anstelle einer linearen Lösung für jeden Parameter, was eine adjungierte Auswertung für den Fall mit vielen Parametern billig macht.
Es ist nicht völlig unabhängig; vermutlich steigen die Kosten für die Auswertung und mit der Anzahl der Parameter. Die linearen Lösungen haben jedoch immer noch die gleiche Größe, solange sich die Größe von nicht ändert. Die Annahme ist, dass die Lösungen viel teurer sind als die Funktionsbewertungen.(∂I/∂β) (∂R/∂β) u
quelle
Kurz gesagt, der Vorteil ergibt sich aus der Tatsache, dass Sie zur Berechnung von Ableitungen des reduzierten Ziels die Ableitung von in Bezug auf nicht wirklich kennen müssen als separates Objekt, aber nur der Teil davon, der zu Variationen in .I(β,u(β)) u(β) β I(β,u(β))
Lassen Sie mich zu einer Notation wechseln, mit der ich mich ein bisschen besser : ( ist das Entwurfsvariable, wobei die Zustandsvariable und das Ziel ist). Nehmen wir an, ist nett genug, um den impliziten Funktionssatz anzuwenden, also hat die Gleichung eine eindeutige Lösung die in Bezug auf und die Ableitung kontinuierlich differenzierbar ist ist gegeben durch die Lösung von ( und sind die partiellen Ableitungen) .
Dies bedeutet, dass Sie das reduzierte Ziel , das ebenfalls differenzierbar ist (wenn ist). Eine Möglichkeit, den Gradienten zu charakterisieren, besteht in gerichteten Ableitungen (z. B. Berechnung aller partiellen Ableitungen in Bezug auf eine Basis des Entwurfsraums). Hier ist die Richtungsableitung in Richtung durch die Kettenregel gegeben als Wenn nett ist, ist die einzige schwierige Sache, für gegebenes zu berechnen . Dies kann durch Multiplizieren von mitj(u):=J(y(u),u) J(y,u) ∇j(u) h
Wenn wir jedoch einen Operator so dass dann muss dies der gewünschte Gradient sein. Wenn wir uns , können wir (wobei der adjungierte Operator ist), also müssen wir nur berechnen . Unter Verwendung von kann dies unter Verwendung von , dh Berechnen von und Setzen von Bei der PDE-beschränkten Optimierung ist∇j
quelle