Lösen der Hamilton-Jacobi-Bellman-Gleichung; notwendig und ausreichend für die Optimalität?

13

Man betrachte die folgende Differentialgleichung wobei der Zustand und die Steuervariable ist. Die Lösung ist gegeben durch \ begin {align} x (t) = x_0 + \ int ^ t_0f (x (s), u (s)) ds. \ end {align} wobei x_0: = x (0) der angegebene Anfangszustand ist.

x˙(t)=f(x(t),u(t))
xu
x(t)=x0+0tf(x(s),u(s))ds.
x0: =x(0)

Betrachte nun das folgende Programm wobei \ rho> 0 die Zeitpräferenz bezeichnet, V (\ cdot) der Wert ist und F (\ cdot) eine objektive Funktion. Eine klassische wirtschaftliche Anwendung ist das Ramsey-Cass-Koopmans-Modell für optimales Wachstum. Die Hamilton-Jacobi-Bellman-Gleichung ist gegeben durch \ begin {align} \ rho V (x) = \ max_u [F (x, u) + V '(x) f (x, u)], \ quad \ forall t \ in [0, \ infty). \ end {align}

V(x0): =maxu0e-ρtF(x(t),u(t))dts.t. x˙(t)=f(x(t),u(t))x(0)=x0
ρ>0V()F()
ρV(x)=maxu[F(x,u)+V(x)f(x,u)],t[0,).

Angenommen, ich habe die HJB für V gelöst V. Die optimale Steuerung ist dann gegeben durch

u=argmaxu[F(x,u)+V(x)f(x,u)].
Ich erhalte optimale Flugbahnen für den Zustand und die Kontrolle {(x(t),u(t)):t[0,)} .

Der Wiki- Artikel sagt

... aber wenn über den gesamten Zustandsraum gelöst, ist die HJB-Gleichung eine notwendige und ausreichende Bedingung für ein Optimum.

In Bertsekas (2005) Dynamic Programming and Optimal Control , Band 1, 3. Aufl., In Proposition 3.2.1, stellt er fest, dass das Lösen nach V die optimale Cost-to-Go-Funktion und das zugehörige u optimal ist. Er erklärt es jedoch ausdrücklich als einen Suffizienzsatz.

Eigentlich möchte ich nur sicherstellen, dass ich mich nicht mit zusätzlichen Optimalitätsbedingungen befassen muss, wenn ich die HJB gelöst und die zugehörigen Zustands- und Steuerbahnen wiederhergestellt habe.

Lösung

Ich versuche

Ich denke, ich konnte notwendige Bedingungen aus dem Maximalprinzip durch die HJB-Gleichung selbst ableiten.

Definiere das Hamilton'sche

H(x,u,V(x)): =F(x,u)+V(x)f(x,u)

dann haben wir

ρV(x)=maxuH(x,u,V(x))

das ist

ρV(x)=H(x,u,V(x)).

Definieren Sie eine beliebige Funktion mit . Fixiere nun q ( 0 ) = lim t q ( t ) = 0q:[0,)Rq(0)=limtq(t)=0

x=x+εq

Dabei ist ein Parameter. Fügen Sie den Term in den maximierten Hamilton-Ausdruck ein, der ρ V ( x * + ε q ) = H ( x * + ε q , u * , V ' ( x * + ε q ) ) .εR

ρV(x+εq)=H(x+εq,u,V(x+εq)).

Bei wir die optimale Lösung. Also differenziere über , um eine Bedingung erster Ordnung ε ρ V ' q = H x q + H V ' V " q .ε=0ε

ρVq=Hxq+HVVq.

Definieren Sie nun die adjungierte Variable mit

λ=V(x).

Differenziere über die Zeit

λ˙=Vx˙.

und beachte, dass

HV=f(x,u)=x˙.

Stecke alles in den FOC, was

ρλ=Hx+λ˙.

Das ist es ziemlich genau. Das Lösen des HJB ist also in der Tat notwendig und ausreichend (hier weggelassen) für die Optimalität. Jemand sollte es zum Wiki hinzufügen. Könnte Zeit sparen für Leute, die über solche Probleme nachdenken (wird meiner Meinung nach nicht viel sein).

Es fehlt jedoch die Transversalitätsbedingung .

limte-ρtλ(t)=0

II Versuch

Definiere die Auszahlungsfunktion

J(u): =0e-ρtF(x,u)dt

Beachten Sie, dass durch Definition von . Addiere den neutralen Term zu der Auszahlungsfunktion

0e-ρtλ[f(x,u)-x˙]dt=0
x˙=f(x,u)
J(u)=0e-ρt[F(x,u)+λf(x,u)]dt-0e-ρtλx˙dt=0e-ρtH(x,u,λ)-0e-ρtλx˙dt

Die Integration von Teilen des richtigen Terms und der rhs ergibt

0e-ρtλx˙dt=[e-ρtλ(t)x(t)]0-0e-ρtx(λ˙-ρλ)dt

Ersetzen Sie diesen Term durch

J(u)=0e-ρt[H(x,u,λ)+x(λ˙-ρλ)]dt-limte-ρtλ(t)x(t)+λ(0)x(0)

Definiere

x=x+εqu=u+εp

was gibt

J(ε)=0e-ρt[H(x+εq,u+εp,λ)+(x+εq)(λ˙-ρλ)]dt-limte-ρtλ(t)[x(t)+εq(t)]+λ(0)x(0)

FOC für maximalesJ ε = 0 e - ρ t [ H x q + H u p + q ( ˙ λ - ρ λ ) ] d t - lim t e - ρ t λ (Jε=0

Jε=0e-ρt[Hxq+Hup+q(λ˙-ρλ)]dt-limte-ρtλ(t)q(t)=0

Da und sind, müssen wir qp

Hu=0Hx=ρλ-λ˙limte-ρtλ(t)=0
ahnungslos
quelle
Haben Sie die notwendigen und ausreichenden Voraussetzungen bereits identifiziert?
Jamzy
In welchem ​​wirtschaftlichen Kontext stellt sich dies ein?
Stan Shunpike
Ramsey-Modell zum Beispiel cer.ethz.ch/resec/people/tsteger/Ramsey_Model.pdf
ahnungslos
1
Ich denke, dass dieser Thread besser für math.stackexchange.com geeignet ist, da er nicht wirklich mit econ verbunden ist. Ein Mod darf es übertragen.
ahnungslos
Ich bin mir nicht sicher, was hier gefragt wird: Wenn per Bertsekas das Lösen von HJB ausreicht , dann muss man sich nicht "um zusätzliche Optimalitätsbedingungen sorgen". Das "nur ausreichend" gegen "notwendig und ausreichend" würde entstehen, wenn HJB nicht gelöst wurde - in diesem Fall würde man sagen "das bedeutet nicht, dass es keine Lösung gibt". Übrigens sind Ihre Versuche I und II hier wertvolle Inhalte - der erste zeigt einen Link zwischen HJB und Optimal Control, der zweite zeigt, wie die Optimal Control-FOCs abgeleitet werden können.
Alecos Papadopoulos

Antworten:

1

(Dies sollte vielleicht als Kommentar angesehen werden.)

Wenn Sie die HJB-Gleichung gelöst haben, ist es ausreichend, die optimale Lösung zu erhalten. Sie müssen sich also nicht "mit anderen Optimalitätsbedingungen befassen", von denen ich glaube, dass sie Ihre Frage beantworten.

Es scheint, dass Sie über die "notwendige" Komponente des Theorems besorgt sind. Die Notwendigkeitsseite der Aussage lautet wie folgt: Wenn es eine optimale Lösung gibt, muss es eine Lösung für die HJB-Gleichung geben.

Ich habe mit diesem speziellen Problem nicht gearbeitet, aber die Antwort im Allgemeinen lautet, dass wir keine differenzierbare Funktion V erwarten. Daher haben wir keine Lösung für die angegebene Gleichung. Stattdessen müssen wir uns verallgemeinerte Ableitungen ansehen und die HJB-Gleichung in eine Ungleichung umwandeln. In diesem Fall erhalten Sie möglicherweise eine "viskose Lösung". Wenn wir auf die Verwendung von verallgemeinerten Derivaten ausdehnen, kann möglicherweise nachgewiesen werden, dass eine solche Lösung immer existiert. Wenn Sie einen Blick auf Ihre Beweise werfen, helfen sie nicht bei den notwendigen Bedingungen, da Sie von einer Differenzierbarkeit ausgehen.

Brian Romanchuk
quelle