Ist die optimale Politik immer stochastisch (dh eine Karte von Zuständen zu einer Wahrscheinlichkeitsverteilung über Aktionen), wenn die Umgebung auch stochastisch ist?
Intuitiv, wenn die Umgebung ist deterministisch (das heißt, wenn das Mittel in einem Zustand ist und greift , dann wird der nächste Zustand ist immer gleich, egal welcher Zeitschritt), dann ist die optimale Politik sollte auch deterministisch sein (Das heißt, es sollte eine Karte von Zuständen zu Aktionen sein und nicht zu einer Wahrscheinlichkeitsverteilung über Aktionen).
Antworten:
Nein.
Eine optimale Politik ist im Allgemeinen deterministisch, es sei denn:
Wichtige Statusinformationen fehlen (ein POMDP). Beispiel: In einer Karte, in der der Agent seinen genauen Standort nicht kennen oder sich nicht an frühere Status erinnern darf und der Status, den er erhält, nicht ausreicht, um zwischen Standorten zu unterscheiden. Wenn das Ziel darin besteht, an einen bestimmten Endort zu gelangen, kann die optimale Richtlinie einige zufällige Bewegungen enthalten, um ein Feststecken zu vermeiden. Beachten Sie, dass die Umgebung in diesem Fall deterministisch sein kann (aus der Sicht von jemandem, der den gesamten Zustand sehen kann), aber dennoch dazu führt, dass eine stochastische Politik erforderlich ist, um ihn zu lösen.
Es gibt eine Art Minimax-Spieltheorie-Szenario, in dem eine deterministische Politik von der Umgebung oder einem anderen Agenten bestraft werden kann. Denken Sie an Schere / Papier / Stein oder Gefangenendilemma.
Das scheint vernünftig, aber Sie können diese Intuition mit jeder Methode weiterentwickeln, die auf einer Wertefunktion basiert:
Wenn Sie einen optimalen Wert Funktion gefunden haben, dann wirkt gierig in Bezug auf es ist die optimale Politik.
Die obige Aussage ist nur eine natürliche Neuaussage der Bellman-Optimalitätsgleichung:
Das heißt, die optimalen Werte werden erhalten, wenn immer die Aktion ausgewählt wird, die die Belohnung plus den reduzierten Wert des nächsten Schritts maximiert. Die Operation ist deterministisch (falls erforderlich, können Sie Verbindungen für den Maximalwert deterministisch unterbrechen, z. B. mit einer geordneten Liste von Aktionen).maxein
Daher hat jede Umgebung, die von einem MDP modelliert und durch eine wertbasierte Methode (z. B. Wertiteration, Q-Learning) gelöst werden kann, eine optimale Politik, die deterministisch ist.
In einer solchen Umgebung ist es möglich, dass die optimale Lösung überhaupt nicht stochastisch ist (dh wenn Sie der deterministischen optimalen Richtlinie eine Zufälligkeit hinzufügen, wird die Richtlinie streng schlechter). Wenn es jedoch Bindungen für den Maximalwert für eine oder mehrere Aktionen in einem oder mehreren Zuständen gibt, gibt es mehrere äquivalente optimale und deterministische Richtlinien. Sie können eine stochastische Richtlinie erstellen, die diese in einer beliebigen Kombination mischt, und sie ist auch optimal.
quelle
Ich würde nein sagen.
Wenn Sie sich in einer Umgebung befinden, in der Sie gegen einen anderen Agenten spielen (eine spieltheoretische Einstellung), ist Ihre optimale Politik natürlich stochastisch (denken Sie beispielsweise an ein Pokerspiel).
quelle
Ich denke an eine Wahrscheinlichkeitslandschaft, in der Sie sich als Schauspieler befinden, mit verschiedenen unbekannten Höhen und Tiefen. Ein guter deterministischer Ansatz führt Sie wahrscheinlich immer zum nächsten lokalen Optimum, aber nicht unbedingt zum globalen Optimum. Um das globale Optimum zu finden, würde so etwas wie ein MCMC-Algorithmus es ermöglichen, ein vorübergehend schlechteres Ergebnis stochastisch zu akzeptieren, um einem lokalen Optimum zu entkommen und das globale Optimum zu finden. Meine Intuition ist, dass dies in einer stochastischen Umgebung auch wahr wäre.
quelle