Um Ihre Frage zu beantworten, lassen Sie mich zunächst einige wichtige (In-) Gleichungen aufschreiben.
Bellman-Optimalitätsgleichung:
v∗( s )= maxeinE [ R.t + 1+ γv∗( S.t + 1) ∣ S.t= s , A.t= a ]= maxein∑s'p ( s'∣ s , a ) [ r ( s , a , s') + γv∗( s') ]
Dabei ist v∗( . ) die optimale Wertfunktion.
Theorem zur Politikverbesserung ( Pit ):
Lassen und sein jedes Paar von deterministischer Politik , so dass für all ,
Dann wird die Politik muss so gut wie oder besser als . Das heißt, es muss eine größere oder gleiche erwartete Rendite von allen Zuständen . π ' s ∈ S q π ( s , π ' ( s ) ) ≥ v π ( s ) π ' π s ∈ S : v π ' ( s ) ≥ v π ( s )ππ's ∈ S.qπ( s , π'( s ) ) ≥ vπ( s )π'πs ∈ S.: vπ'( s ) ≥ vπ( s )
(siehe Seite 89 von Sutton & Barto, Reinforcement Learning: Ein Einführungsbuch )
Wir können eine Politik verbessern durch folgende Regel bei jedem Zustand:π
π'( s )= argmaxeinqπ( s , a )= argmaxein∑s'p ( s'∣ s , a ) [ r ( s , a , s') + γvπ( s') ]
Unsere neue Richtlinie erfüllt die Bedingung von Pit und ist daher so gut oder besser als . Wenn so gut wie, aber nicht besser als , dann ist für alle . Aus unserer Definition von schließen wir, dass: π π ' π v π ' ( s ) = v π ( s ) s π 'π'ππ'πvπ'( s ) = vπ( s )sπ'
vπ'( s )= maxeinE [ R.t + 1+ γvπ'( S.t + 1) ∣ S.t= s , A.t= a ]= maxein∑s'p ( s'∣ s , a ) [ r ( s , a , s') + γvπ'( s') ]
Diese Gleichheit ist jedoch dieselbe wie die Bellman-Optimalitätsgleichung, daher muss gleich . v ∗vπ'v∗
Aus dem oben Gesagten geht hoffentlich hervor, dass die neue Richtlinie eine der optimalen Richtlinien sein muss, wenn wir eine Richtlinie verbessern und dieselbe Wertfunktion erhalten, die wir zuvor hatten. Weitere Informationen finden Sie unter Sutton & Barto (2012).