Ich las Andrew Ngs Vorlesungsunterlagen über das Lernen der Verstärkung und versuchte zu verstehen, warum die Richtlinieniteration zur optimalen Wertfunktion und zur optimalen Richtlinie konvergierte .
Die Iteration der Rückrufrichtlinie lautet:
Warum führt ein Greedy-Algorithmus zu einer optimalen Richtlinie und einer optimalen Wertfunktion? (Ich weiß, dass gierige Algorithmen dies nicht immer garantieren oder in lokalen Optima stecken bleiben könnten, deshalb wollte ich nur einen Beweis für die Optimalität des Algorithmus sehen).
Außerdem scheint mir die Iteration von Richtlinien etwas Analoges zu Clustering oder Gradientenabstieg zu sein. Zum Clustering, weil wir mit der aktuellen Einstellung der Parameter optimieren. Ähnlich wie beim Gradientenabstieg, da nur ein Wert ausgewählt wird, der die Funktion zu erhöhen scheint. Diese beiden Methoden konvergieren nicht immer zu optimalen Maxima, und ich habe versucht zu verstehen, wie sich dieser Algorithmus von den zuvor erwähnten unterscheidet.
Das sind meine bisherigen Gedanken:
Angenommen, wir beginnen mit einer Richtlinie , und nach dem ersten Schritt haben wir für diese feste Richtlinie Folgendes:
Wobei V ^ {(1)} die Wertfunktion für die erste Iteration ist. Dann wählen wir nach dem zweiten Schritt eine neue Richtlinie , um den Wert von zu erhöhen . Wenn wir nun mit der neuen Richtlinie den zweiten Schritt des Algorithmus ausführen, gilt die folgende Ungleichung:
Da wir im zweiten Schritt wählen , um die Wertfunktion im vorherigen Schritt zu erhöhen (dh um zu verbessern . Bisher ist klar, dass die Auswahl von nur V ^ {(1)} erhöhen kann. denn so wählen wir . Meine Verwirrung tritt jedoch im Wiederholungsschritt auf, denn sobald wir wiederholen und zu Schritt 1 zurückkehren, ändern wir die Dinge tatsächlich vollständig, weil wir für die neue Richtlinie neu berechnen . Welches gibt:
aber es ist NICHT:
Dies scheint ein Problem zu sein, da ausgewählt wurde, um zu verbessern , und nicht dieses neue . Grundsätzlich besteht das Problem darin, dass garantiert, dass verbessert wird, indem stattdessen wird von wenn die . Aber im Wiederholungsschritt ändern wir in , aber ich sehe nicht, wie dies garantiert, dass sich die Wertfunktion bei jeder Wiederholung monoton verbessert, da berechnet wurde, um die zu verbessern, wenn Die Wertfunktionen bleiben bei V π 1, aber Schritt 1 ändert in (was schlecht ist, weil I nur die vorherige verbessert hat, die wir hatten).
quelle
Antworten:
Ich denke, der Teil, den Sie vermissen, ist, dass aus dem gleichen Grund garantiert ist, aus dem wir π 2 ≥ π 1 bestellen können . Das ist im Wesentlichen die Definition, dass eine Politik besser ist als eine andere - dass ihre Wertfunktion in allen Staaten größer oder gleich ist. Sie haben dies durch Auswahl der Maximierungsaktionen garantiert - kein Statuswert kann möglicherweise schlechter sein als zuvor, und wenn sich nur eine Aktionsauswahl geändert hat, um eine bessere Maximierungsaktion auszuwählen, wissen Sie bereits (aber möglicherweise nicht berechnet), dass der V π 2 ( s ) für diesen Zustand wird höher sein als fürV.π2≥ V.π1 π2≥ π1 V.π2( s ) .V.π1( s )
Wenn wir die Ergebnisse maximieren, um zu erzeugen , wissen wir nicht, wie die neuen V π 2 ( s ) für irgendeinen Zustand aussehen werden , aber wir wissen, dass ∀ s : V π 2 ( s ) ≥ V π ist 1 ( s ) .π2 V.π2( s ) ∀ s : V.π2( s ) ≥ V.π1( s )
Wenn Sie also die Schleife durchlaufen und für die neue Richtlinie berechnen , haben Sie garantiert dieselben oder höhere Werte als zuvor. Wenn Sie die Richtlinie erneut aktualisieren, .V.π2 π3≥ π2≥ π1
quelle
Lassen Sie uns zunächst sehen, warum der Algorithmus-Iterationsalgorithmus funktioniert. Es hat zwei Schritte.
Schritt zur Richtlinienbewertung:
ist die allgemeine vektorielle Form des linearen Gleichungssystems.vn= rdn+ γP.dnvn
Hier sind die Terme unmittelbare Belohnungen und entsprechende Zeilen der Übergangsmatrix.rdn, P.dn
Diese Bedingungen sind abhängig von der RichtlinieΠn
Durch Lösen des obigen Gleichungssystems können wir die Werte vonvn
Schritt zur Verbesserung der Richtlinien:
Angenommen, wir konnten eine neue Richtlinie so dassΠn + 1
Basierend auf der neuen Richtlinie können wir nun v n + 1 = r d n + 1 + γ P d n + 1 v n + 1 finden , sagen wir, dies ist Gleichung 2.Πn + 1 vn + 1= rdn + 1+ γP.dn + 1vn + 1
Wir werden zeigen, dass ;vn + 1≥ vn
dh im Wesentlichen für alle Staaten ergibt die neu gewählte Politik einen besseren Wert als die vorherige Politik Π nΠn + 1 Πn
Beweis:
Aus Gleichung 2 haben wir:
Von haben wir1 & 2
Im Wesentlichen steigen die Werte mit jeder Iteration monoton an.
Dies ist wichtig, um zu verstehen, warum die Richtlinieninteraktion nicht auf ein lokales Maximum beschränkt bleibt.
Eine Richtlinie ist nichts anderes als ein staatlicher Aktionsraum.
Bei jedem Schritt der Richtlinieniteration versuchen wir, mindestens eine Zustandsaktion zu finden, die sich zwischen und Π n unterscheidet, und prüfen, obΠn + 1 Πn . Nur wenn die Bedingung erfüllt ist, berechnen wir die Lösung für das neue System linearer Gleichungen.rdn+ 1+ γP.dn+ 1vn≥ rdn+ γP.dnvn
Angenommen, und Π # sind das globale bzw. lokale Optimum.Π∗ Π#
Impliziert,v∗≥ v#
Angenommen, der Algorithmus steckt im lokalen Optimum fest.
oder mit anderen Worten,
Daher hört die Richtlinieniteration nicht bei einem lokalen Optimum auf
quelle