Ist die optimale Politik immer stochastisch, wenn die Umgebung auch stochastisch ist?

10

Ist die optimale Politik immer stochastisch (dh eine Karte von Zuständen zu einer Wahrscheinlichkeitsverteilung über Aktionen), wenn die Umgebung auch stochastisch ist?

Intuitiv, wenn die Umgebung ist deterministisch (das heißt, wenn das Mittel in einem Zustand ist und greift , dann wird der nächste Zustand ist immer gleich, egal welcher Zeitschritt), dann ist die optimale Politik sollte auch deterministisch sein (Das heißt, es sollte eine Karte von Zuständen zu Aktionen sein und nicht zu einer Wahrscheinlichkeitsverteilung über Aktionen).sas

nbro
quelle
Hier ist eine verwandte Frage: mathoverflow.net/q/44677 .
nbro

Antworten:

6

Ist die optimale Politik immer stochastisch (dh eine Karte von Zuständen zu einer Wahrscheinlichkeitsverteilung über Aktionen), wenn die Umgebung auch stochastisch ist?

Nein.

Eine optimale Politik ist im Allgemeinen deterministisch, es sei denn:

  • Wichtige Statusinformationen fehlen (ein POMDP). Beispiel: In einer Karte, in der der Agent seinen genauen Standort nicht kennen oder sich nicht an frühere Status erinnern darf und der Status, den er erhält, nicht ausreicht, um zwischen Standorten zu unterscheiden. Wenn das Ziel darin besteht, an einen bestimmten Endort zu gelangen, kann die optimale Richtlinie einige zufällige Bewegungen enthalten, um ein Feststecken zu vermeiden. Beachten Sie, dass die Umgebung in diesem Fall deterministisch sein kann (aus der Sicht von jemandem, der den gesamten Zustand sehen kann), aber dennoch dazu führt, dass eine stochastische Politik erforderlich ist, um ihn zu lösen.

  • Es gibt eine Art Minimax-Spieltheorie-Szenario, in dem eine deterministische Politik von der Umgebung oder einem anderen Agenten bestraft werden kann. Denken Sie an Schere / Papier / Stein oder Gefangenendilemma.

Intuitiv sollte die optimale Richtlinie auch deterministisch sein, wenn die Umgebung deterministisch ist (dh wenn sich der Agent in einem Zustand 𝑠 befindet und Maßnahmen ergreift 𝑎, dann ist der nächste Zustand 𝑠 'immer der gleiche, unabhängig von welchem ​​Zeitschritt) (Das heißt, es sollte eine Karte von Zuständen zu Aktionen sein und nicht zu einer Wahrscheinlichkeitsverteilung über Aktionen).

Das scheint vernünftig, aber Sie können diese Intuition mit jeder Methode weiterentwickeln, die auf einer Wertefunktion basiert:

Wenn Sie einen optimalen Wert Funktion gefunden haben, dann wirkt gierig in Bezug auf es ist die optimale Politik.

Die obige Aussage ist nur eine natürliche Neuaussage der Bellman-Optimalitätsgleichung:

v(s)=maxar,sp(r,s|s,a)(r+γv(s))

Das heißt, die optimalen Werte werden erhalten, wenn immer die Aktion ausgewählt wird, die die Belohnung plus den reduzierten Wert des nächsten Schritts maximiert. Die Operation ist deterministisch (falls erforderlich, können Sie Verbindungen für den Maximalwert deterministisch unterbrechen, z. B. mit einer geordneten Liste von Aktionen).maxa

Daher hat jede Umgebung, die von einem MDP modelliert und durch eine wertbasierte Methode (z. B. Wertiteration, Q-Learning) gelöst werden kann, eine optimale Politik, die deterministisch ist.

In einer solchen Umgebung ist es möglich, dass die optimale Lösung überhaupt nicht stochastisch ist (dh wenn Sie der deterministischen optimalen Richtlinie eine Zufälligkeit hinzufügen, wird die Richtlinie streng schlechter). Wenn es jedoch Bindungen für den Maximalwert für eine oder mehrere Aktionen in einem oder mehreren Zuständen gibt, gibt es mehrere äquivalente optimale und deterministische Richtlinien. Sie können eine stochastische Richtlinie erstellen, die diese in einer beliebigen Kombination mischt, und sie ist auch optimal.

Neil Slater
quelle
1
"In einem solchen Umfeld ist es möglich, dass keine stochastische Politik optimal ist", meinen Sie deterministische Politik?
nbro
2
@nbro: Nein, ich meine wirklich, dass es keine optimale stochastische Politik gibt. Dies ist häufig der Fall. Denken Sie zum Beispiel an einen einfachen Labyrinthlöser. Wenn die optimale deterministische Lösung ein einzelner Pfad von Anfang bis Ende ist, wird die Richtlinie durch Hinzufügen von Zufälligkeiten streng verschlechtert. Dies ändert sich nicht, wenn die Umgebung zufälliges Rauschen hinzufügt (z. B. Bewegungen, die manchmal fehlschlagen)
Neil Slater,
2
Ich verstehe jetzt. Sie sagen, dass es immer eine deterministische Politik gibt, dann wird eine Politik, die stochastisch ist und von der deterministischen Politik abgeleitet wird, wahrscheinlich schlechter sein als die optimale deterministische Politik.
nbro
1
@nbro: Ja, das ist es.
Neil Slater
5

Ich würde nein sagen.

npiin

pi

Wenn Sie sich in einer Umgebung befinden, in der Sie gegen einen anderen Agenten spielen (eine spieltheoretische Einstellung), ist Ihre optimale Politik natürlich stochastisch (denken Sie beispielsweise an ein Pokerspiel).

Adrien Forbu
quelle
pipii
2
@nbro: Es ist sicher in Erwartung, was die optimale Politik maximiert. Richtlinien versuchen nicht, Zufallszahlengeneratoren zu erraten, was als unmöglich angesehen wird (wenn dies aufgrund eines internen Status des Systems möglich wäre, müssen Sie diesen internen Status entweder dem Modell hinzufügen oder als POMDP behandeln)
Neil Slater
@NeilSlater Ok. Aber würde sich die Schlussfolgerung ändern, wenn die Zeit begrenzt ist? Wenn Sie nur eine begrenzte Zeit zum Spielen haben, muss die Erwartung, denke ich, auch die verfügbare Zeit zum Spielen berücksichtigen.
nbro
2
@nbro: Das mag deine Entscheidungen ändern, aber es geht nicht wirklich um die optimale Politik. Die optimale Politik für die Banditenarme ist immer noch deterministisch, wenn es darum geht, den besten Arm zu verwenden, aber Sie wissen es nicht. Hier geht es um Exploration vs. Ausbeutung. Man könnte sagen, dass es vielleicht "eine optimale Politik zur Erforschung eines Banditenproblems" gibt. Nicht die in z. B. Sutton & Barto verwendete Terminologie, aber vielleicht sagen das einige Parctioner, ich weiß es nicht. . .
Neil Slater
1
Die Umgebung enthält nur einen Zustand, in dem Sie immer wieder vor der gleichen Entscheidung stehen: Welchen Arm muss ich wählen?
Adrien Forbu
0

Ich denke an eine Wahrscheinlichkeitslandschaft, in der Sie sich als Schauspieler befinden, mit verschiedenen unbekannten Höhen und Tiefen. Ein guter deterministischer Ansatz führt Sie wahrscheinlich immer zum nächsten lokalen Optimum, aber nicht unbedingt zum globalen Optimum. Um das globale Optimum zu finden, würde so etwas wie ein MCMC-Algorithmus es ermöglichen, ein vorübergehend schlechteres Ergebnis stochastisch zu akzeptieren, um einem lokalen Optimum zu entkommen und das globale Optimum zu finden. Meine Intuition ist, dass dies in einer stochastischen Umgebung auch wahr wäre.

Jonathan Moore
quelle