Intuition hinter der Methode der Multiplikatoren mit alternierender Richtung

Ich habe in letzter Zeit viele Artikel über ADMM gelesen und auch versucht, einige Probleme damit zu lösen, bei denen es sehr effektiv war. Im Gegensatz zu anderen Optimierungsmethoden kann ich mir nicht vorstellen, wie und warum diese Methode so effektiv ist (natürlich habe ich in einigen Fällen eine Konvergenzanalyse gesehen, aber nichts, was mir zu viele Einblicke gab). Gibt es eine Intuition hinter ADMM? Wie kamen die ersten Wissenschaftler auf diese Idee? Eine gewisse geometrische Intuition wäre am besten, aber jede Einsicht, die jemand hat, wird helfen.

optimization admm Olamundo
quelle

Können Sie darlegen, was ADMM ist?

Bill Barth

@ BillBarth - Sicher :) Wechselrichtungsmethode von Multiplikatoren (siehe z. B. stanford.edu/~boyd/admm.html )

olamundo

Können Sie zumindest sagen, was Sie an dem Originalpapier so unklar finden?

Kirill

@Kirill Nur eine Kleinigkeit: Boyds Papier ist kaum das Original-ADMM-Papier. Es ist eine gute Referenz, aber der Algorithmus geht auf Douglas und Rachford (1956) zurück und wurde von den 1970er bis 1990er Jahren weiterentwickelt und analysiert. Es hat eine Wiederbelebung in den letzten Jahren vor allem aufgrund der Summen gesehen um Regularisierung.

ℓ^{1}

$\ell^1$

Jed Brown

ADMM hat viel Aufmerksamkeit erhalten, weil es zur Lösung von Problemen bei der -Regularisierung so effektiv ist , aber es ist keine Methode, die im Allgemeinen für alle Optimierungsprobleme nützlich ist. Eine bessere Frage wäre, warum ADMM im Kontext so effektiv ist. Die Arbeit von Osher und Yin an Split-Bregman-Methoden (im Grunde genommen gleichbedeutend mit ADMM) hilft, dies zu erklären. Siehe die Seite unter caam.rice.edu/~optimization/L1/bregman

L_{1}

$L_{1}$

Brian Borchers

Wenn ich mich richtig erinnere, wird das ADMM oft als Algorithmus angegeben, um für zwei konvexe zu lösen , nieder-halb Funktionales und und linear, beschränkte Operatoren und .

min_{x, y} F (x) + G (y), s.t A x + B y = c

$\min_{x,y}\ F(x) + G(y),\quad\text{s.t}\quad Ax+By = c$

F

$F$

G

$G$

A

$A$

B

$B$

Ich finde den folgenden Sonderfall von , und illustrativ. In diesem Fall lautet die Einschränkung , dh wir können ersetzen, um das Problem Das Lösen kann nun schwierig sein, während das Lösen von Problemen der Form einfach sein kann. (Sie können sich selbst Beispiele dafür ausdenken, ein beliebtes ist und ). In ADMM beginnen Sie mit der "geteilten Form" und erstellen das "erweiterte Lagragian" $A=I$ $B=-I$ $c=0$ $x - y = 0$

min_{x} F (x) + G (x) .

$\min_x F(x) + G(x).$

min_{x} ρ F (x) + \frac{1}{2} ‖ x - z ‖^{2}

$\min_x \rho F(x) + \tfrac12\|x-z\|^2$

F (x) = λ ‖ x ‖^{1}

$F(x) = \lambda\|x\|^1$

G (x) = \frac{1}{2} ‖ A x - b ‖^{2}

$G(x) = \tfrac12\|Ax-b\|^2$

min_{x, y} F (x) + G (y), s.t x - y = 0

$\min_{x,y}\ F(x) + G(y),\quad\text{s.t}\quad x-y=0$

L_{ρ} (x, y, z) = F (x) + G (y) + z^{T} (x - y) + \frac{ρ}{2} ‖ x - y ‖^{2}

$L_\rho(x,y,z) = F(x) + G(y) + z^T(x-y) + \tfrac\rho2\|x-y\|^2$ mit dem Lagrange- Multiplikator . Jetzt minimieren Sie abwechselnd den erweiterten Lagragian in den verschiedenen Richtungen und , dh iterieren und aktualisiere den Multiplikator gemäß Dies sollte die Namenswechselmethode für Multiplikatoren erklären .

z

$z$

x

$x$

y

$y$

x^{k + 1} = {a r g m i n}_{x} L_{ρ} (x, y^{k}, z^{k})

$x^{k+1} = \mathrm{argmin}_x\ L_\rho(x,y^k,z^k)$

y^{k + 1} = {a r g m i n}_{y} L_{ρ} (x^{k + 1}, y, z)

$y^{k+1} = \mathrm{argmin}_y\ L_\rho(x^{k+1},y,z)$

z^{k + 1} = z^{k} + ρ (x^{k + 1} - y^{k + 1}) .

$z^{k+1} = z^k + \rho(x^{k+1} - y^{k+1}).$

Wenn Sie diese Minimierungsprobleme für und genauer analysieren , stellen Sie fest, dass für jedes Update nur ein Problem der "einfacheren Form" gelöst werden muss, z. B. für das Update (Vernachlässigung von Begriffen, die nicht von abhängen ). $x$ $y$ $x$

x^{k + 1} = {a r g m i n}_{x} F (x) + \frac{ρ}{2} ‖ x - y^{k} + ρ z^{k} ‖^{2}

$x^{k+1} = \mathrm{argmin}_x\ F(x) + \tfrac\rho2\|x - y^k + \rho z^k\|^2$

x

$x$

ADMM für das Problem wird ähnlich abgeleitet, aber dann sind die Zwischenprobleme für die Aktualisierungen immer noch a etwas schwierig, kann aber im Vergleich zum Original vergleichsweise einfach sein. Insbesondere im Fall von und (oder äquivalent , und die Einschränkung ) Die Aktualisierungen sind mehr oder weniger einfach zu implementieren.

min_{x, y} F (x) + G (y), s.t A x + B y = c

$\min_{x,y}\ F(x) + G(y),\quad\text{s.t}\quad Ax+By = c$

F (x) = λ ‖ x ‖_{1}

$F(x) = \lambda\|x\|_1$

G (x) = \frac{1}{2} ‖ A x - b ‖^{2}

$G(x) = \tfrac12\|Ax-b\|^2$

F (x) = λ ‖ x ‖_{1}

$F(x) = \lambda\|x\|_1$

G (y) = \frac{1}{2} ‖ y ‖^{2}

$G(y) = \tfrac12\|y\|^2$

A x - y = b

$Ax - y = b$

Dolch
quelle

Nett! Es ist auch nützlich zu zeigen, was für 3 Blöcke passiert (es gibt Fälle, für die es funktioniert, zum Beispiel für dekorrelierte Matrizen).

Royi

Intuition hinter der Methode der Multiplikatoren mit alternierender Richtung

Antworten: