Reinforcement Learning: Eine Einführung. Zweite Auflage, in Bearbeitung . Richard S. Sutton und Andrew G. Barto (c) 2012, S. 67-68.
Das Lösen einer Bestärkungslernaufgabe bedeutet ungefähr, eine Politik zu finden, die auf lange Sicht eine Menge Belohnung bringt. Für endliche MDPs können wir eine optimale Richtlinie auf folgende Weise präzise definieren. Wertefunktionen definieren eine teilweise Anordnung über Richtlinien. Eine Richtlinie ist als besser oder gleich einer Richtlinie wenn ihre erwartete Rendite für alle Zustände größer oder gleich der von ist. Mit anderen Worten, , wenn und nur wenn für alle .Es gibt immer mindestens eine Richtlinie, die besser oder gleich allen anderen Richtlinien ist.Dies ist eine optimale Politik.
Warum gibt es immer mindestens eine Richtlinie, die besser oder gleich allen anderen Richtlinien ist?
Antworten:
Gleich nach dem zitierten Teil erfahren Sie im selben Absatz, worum es sich bei dieser Richtlinie handelt: Es ist die Richtlinie, die in jedem Bundesstaat die besten Maßnahmen ergreift. In einem MDP wirkt sich die Aktion, die wir in einem Bundesstaat ausführen, nicht auf die Belohnungen für Aktionen aus, die in anderen Bundesstaaten ausgeführt werden, sodass wir die Richtlinie einfach von Bundesstaat zu Bundesstaat maximieren können.
quelle
Die Existenz einer optimalen Politik ist nicht offensichtlich. Um zu sehen, warum, beachten Sie, dass die Wertfunktion nur eine teilweise Sortierung über den Bereich von Richtlinien bietet. Das heisst:
Da dies nur eine partielle Ordnung ist, könnte es einen Fall geben , wo zwei Richtlinien, und π 2 , nicht vergleichbar sind. Mit anderen Worten, es gibt Teilmengen des Zustandsraums S 1 und S 2, so dass:π1 π2 S1 S2
In diesem Fall können wir nicht sagen, dass eine Richtlinie besser ist als die andere. Wenn es sich jedoch um endliche MDPs mit Funktionen mit beschränktem Wert handelt, tritt ein solches Szenario niemals auf. Es gibt genau eine optimale Wertfunktion, obwohl es mehrere optimale Richtlinien geben kann.
Um dies zu beweisen, müssen Sie den Banach-Fixpunktsatz verstehen. Für eine detaillierte Analyse verweisen wir auf .
quelle
Rahmen
Wir betrachten in der Einstellung von:
Die optimale Richtlinie ist definiert als: und die optimale Wertfunktion ist: V ∗ = max π V π ( s ) , ∀ s ∈ S Es kann eine Menge geben von Politiken, die das Maximum erreichen. Es gibt jedoch nur eine optimale Wertefunktion: V ∗ = V π ∗
Die Frage
Wie kann man beweisen, dass es mindestens ein das (1) gleichzeitig für alle s ∈ S erfüllt ?π∗ s∈S
Umriss des Beweises
Konstruieren Sie die optimale Gleichung , die als temporäre Ersatzdefinition der Optimalwertfunktion verwendet werden soll, und beweisen Sie in Schritt 2, dass sie der Definition gemäß Gleichung (2) entspricht.
Leiten Sie die Äquivalenz der Definition der Optimalwertfunktion über Gleichung (4) und über Gleichung (2) her.
(Beachten Sie in der Tat, dass wir nur die Notwendigkeitsrichtung im Beweis benötigen, da die Hinlänglichkeit offensichtlich ist, da wir Gleichung (4) aus Gleichung (2) konstruiert haben.)
Beweisen Sie, dass es zu Gleichung (4) eine eindeutige Lösung gibt.
Durch Schritt 2 wissen wir, dass die in Schritt 3 erhaltene Lösung auch eine Lösung nach Gleichung (2) ist, so dass es sich um eine optimale Wertefunktion handelt.
Aus einer Optimalwertfunktion können wir eine optimale Richtlinie wiederherstellen, indem wir die Maximiereraktion in Gleichung (4) für jeden Zustand auswählen.
Details der Schritte
1Da , haben wir V π * ( s ) ≤ max a ∈ A Q π * ( s , a ) . Und wenn es irgendwelche ~ s , so dass V π * ≠ max a ∈V∗(s)=Vπ∗(s)=Ea[Qπ∗(s,a)] Vπ∗(s)≤maxa∈AQπ∗(s,a) s~ , wir können eine bessere Strategie wählen, indem wirQ ∗ (s,a)=Q π ∗ (s,a)überamaximierenVπ∗≠maxa∈AQπ∗(s,a) Q∗(s,a)=Qπ∗(s,a) a .
2(=>)
Es folgt Schritt 1.
(<=)
wenn also erfüllt ~ V ( s ) = max a ∈ A [ R ( s , a ) + γV~ , dann ~ V ( s ) = V * ( s ) = max π V π ( s ) , ∀ s ∈ S .V~(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V~(s′)] V~(s)=V∗(s)=maxπVπ(s),∀s∈S
Define the optimal Bellman operator as
a) IfV~≥TV~ , then V~≥V∗ .
b) IfV~≤TV~ , then V~≤V∗ .
Proof:
a)
For anyπ=(d1,d2,...) ,
By induction, for anyn ,
Since
Follows from step 1.
3The optimal Bellman operator is a contraction inL∞ norm, cf. [2].
Proof: For anys ,
Thus by Banach fixed point theorum it follows thatT has a unique fixed point.
References
[1] Puterman, Martin L.. “Markov Decision Processes : Discrete Stochastic Dynamic Programming.” (2016).
[2] A. Lazaric. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf
quelle
Die Richtlinieein = π( s ) gibt die beste Aktion ein im Zustand ausführen s nach politik π , dh die Wertfunktion vπ( s ) = maxa ∈ Aqπ( s , a ) ist am höchsten zum Handeln ein im Zustand s .
Es gibt also immer eine Politikπ∗ das gibt gleiche oder höhere erwartete Belohnungen als Politik π . Beachten Sie, dass dies dies impliziertπ könnte eine / die optimale Politik sein (π∗ ) selbst.
quelle