Ist eine Politik beim verstärkten Lernen immer deterministisch oder ist es eine Wahrscheinlichkeitsverteilung über Aktionen (aus denen wir eine Stichprobe ziehen)? Wenn die Richtlinie deterministisch ist, warum nicht die Wertfunktion, die in einem bestimmten Zustand für eine bestimmte Richtlinie wie folgt definiert ist
eine Punktausgabe?
In der obigen Definition nehmen wir eine Erwartung an. Was ist diese Erwartung vorbei?
Kann eine Richtlinie zu unterschiedlichen Routen führen?
reinforcement-learning
deterministic-policy
stochastic-policy
MiloMinderbinder
quelle
quelle
Antworten:
Hier gibt es mehrere Fragen: 1. Ist eine Politik immer deterministisch? 2. Wenn die Richtlinie deterministisch ist, sollte der Wert dann nicht auch deterministisch sein? 3. Wie hoch ist die Erwartung bei der Wertfunktionsschätzung? Ihre letzte Frage ist nicht ganz klar: "Kann eine Richtlinie zu Routen mit unterschiedlichen aktuellen Werten führen?" aber ich denke du meinst: 4. Kann eine Politik zu unterschiedlichen Routen führen?
Eine Politik ist eine Funktion, die entweder deterministisch oder stochastisch sein kann. Es bestimmt, welche Maßnahmen in einem bestimmten Zustand zu ergreifen sind. Die Verteilung wird für eine stochastische Richtlinie verwendet, und eine Zuordnungsfunktion wird für eine deterministische Richtlinie verwendet, wobei die Menge möglicher Zustände und die Menge möglicher Aktionen ist .π : S → A S A.π( a ∣ s ) π: S.→ A. S. EIN
Die Wertfunktion ist nicht deterministisch. Der Wert (eines Staates) ist die erwartete Belohnung, wenn Sie in diesem Staat beginnen und weiterhin einer Richtlinie folgen. Selbst wenn die Richtlinie deterministisch ist, sind die Belohnungsfunktion und die Umgebung möglicherweise nicht.
Die Erwartung in dieser Formel gilt für alle möglichen Routen ab Zustand . Normalerweise werden die Routen oder Pfade in mehrere Schritte zerlegt, mit denen Wertschätzer trainiert werden. Diese Schritte können durch das Tupel (Zustand, Aktion, Belohnung, nächster Zustand) dargestellt werden.( s , a , r , s ' )s ( s , a , r , s')
Dies hängt mit Antwort 2 zusammen. Die Richtlinie kann zu unterschiedlichen Pfaden führen (sogar zu einer deterministischen Richtlinie), da die Umgebung normalerweise nicht deterministisch ist.
quelle
Die Politik kann stochastisch oder deterministisch sein. Die Erwartung ist angesichts der Bedingungen über Trainingsbeispiele. Die Wertfunktion ist eine Schätzung der Rendite, weshalb es sich um eine Erwartung handelt.
quelle