Konvergenzbedingungen für Richtlinien- und Wertiterationsalgorithmen

8

Richtlinien- und Wertiterationsalgorithmen können verwendet werden, um Markov-Entscheidungsprozessprobleme zu lösen. Es fällt mir schwer, die notwendigen Bedingungen für die Konvergenz zu verstehen. Wenn sich die optimale Richtlinie in zwei Schritten (dh während der Iterationen i und i + 1 ) nicht ändert , kann daraus geschlossen werden, dass die Algorithmen konvergiert haben? Wenn nicht, wann dann?

ELEC
quelle

Antworten:

3

Um Ihre Frage zu beantworten, lassen Sie mich zunächst einige wichtige (In-) Gleichungen aufschreiben.

Bellman-Optimalitätsgleichung:

v(s)=maxaE[Rt+1+γv(St+1)St=s,At=a]=maxasp(ss,a)[r(s,a,s)+γv(s)]

Dabei ist v(.) die optimale Wertfunktion.

Theorem zur Politikverbesserung ( Pit ):

Lassen und sein jedes Paar von deterministischer Politik , so dass für all , Dann wird die Politik muss so gut wie oder besser als . Das heißt, es muss eine größere oder gleiche erwartete Rendite von allen Zuständen . π ' s S q π ( s , π ' ( s ) ) v π ( s ) π ' π s S : v π ' ( s ) v π ( s )ππsSqπ(s,π(s))vπ(s)ππsS:vπ(s)vπ(s)

(siehe Seite 89 von Sutton & Barto, Reinforcement Learning: Ein Einführungsbuch )

Wir können eine Politik verbessern durch folgende Regel bei jedem Zustand:π

π'(s)=argmaxeinqπ(s,ein)=argmaxeins'p(s's,ein)[r(s,ein,s')+γvπ(s')]]

Unsere neue Richtlinie erfüllt die Bedingung von Pit und ist daher so gut oder besser als . Wenn so gut wie, aber nicht besser als , dann ist für alle . Aus unserer Definition von schließen wir, dass: π π ' π v π ' ( s ) = v π ( s ) s π 'π'ππ'πvπ'(s)=vπ(s)sπ'

vπ'(s)=maxeinE.[R.t+1+γvπ'(S.t+1)S.t=s,EINt=ein]]=maxeins'p(s's,ein)[r(s,ein,s')+γvπ'(s')]]

Diese Gleichheit ist jedoch dieselbe wie die Bellman-Optimalitätsgleichung, daher muss gleich . v vπ'v

Aus dem oben Gesagten geht hoffentlich hervor, dass die neue Richtlinie eine der optimalen Richtlinien sein muss, wenn wir eine Richtlinie verbessern und dieselbe Wertfunktion erhalten, die wir zuvor hatten. Weitere Informationen finden Sie unter Sutton & Barto (2012).

Jan Vainer
quelle
1

Sie haben Recht: Entweder die aktuelle Wertfunktionsschätzung oder die aktuelle Richtlinienschätzung kann den Status des Algorithmus vollständig beschreiben. Jeder impliziert eine einzigartige nächste Wahl für den anderen. Aus dem unten verlinkten Papier,

"Die Richtlinieniteration wird fortgesetzt, bis ."V.n+1=V.n,αn+1=αn

https://editorialexpress.com/jrust/research/siam_dp_paper.pdf

eric_kernfeld
quelle