Bei der Richtlinieniteration müssen wir jedoch auch einen Softmax-Vektor ausgeben, der sich auf jede Aktion bezieht
Dies ist nicht unbedingt richtig. Ein Softmax-Vektor ist eine Möglichkeit, eine Richtlinie darzustellen, und funktioniert für diskrete Aktionsbereiche. Der Unterschied zwischen Richtliniengradienten- und Wertfunktionsansätzen besteht darin, wie Sie die Ausgabe verwenden. Für eine Wertfunktion würden Sie die maximale Ausgabe finden und diese auswählen (vielleichtϵ-greedily), und es sollte eine Schätzung des Wertes dieser Maßnahme sein. Für eine Richtlinienfunktion würden Sie die Ausgabe als Wahrscheinlichkeit verwenden, um jede Aktion auszuwählen, und Sie kennen den Wert dieser Aktion nicht.
Ich verstehe also nicht, wie dies verwendet werden kann, um mit einem kontinuierlichen Aktionsraum zu arbeiten?
Bei Richtliniengradientenmethoden kann die Richtlinie eine beliebige Funktion Ihrer Parameter seinθ welche:
So kann zum Beispiel Ihre Richtlinienfunktion sein
πθ( s ) = N.( μ ( s , θ ) , σ( s , θ ) )
wo μ und σkönnen Funktionen sein, die Sie beispielsweise mit einem neuronalen Netzwerk implementieren. Die Ausgabe des Netzwerks ist eine Beschreibung der Normalverteilung für den Aktionswertein einen Zustandswert gegeben s. Die Richtlinie erfordert, dass Sie eine Stichprobe aus der durch diese Werte definierten Normalverteilung erstellen (der NN führt diese Stichprobe nicht durch, Sie müssen sie normalerweise im Code hinzufügen).
Warum werden Richtliniengradientenmethoden in kontinuierlichen Aktionsbereichen der Annäherung an Wertfunktionen vorgezogen?
Es ist zwar weiterhin möglich, den Wert eines Status- / Aktionspaars in einem kontinuierlichen Aktionsbereich zu schätzen , dies hilft Ihnen jedoch nicht bei der Auswahl einer Aktion. Überlegen Sie, wie Sie eine implementieren könntenϵ-greedy-Richtlinie unter Verwendung der Aktionswertnäherung: Es würde eine Optimierung des Aktionsraums für jede einzelne Aktionsauswahl erforderlich sein, um die geschätzte optimale Aktion zu finden. Dies ist möglich, aber wahrscheinlich sehr langsam / ineffizient (es besteht auch das Risiko, ein lokales Maximum zu finden).
Durch die direkte Arbeit mit Richtlinien, die Wahrscheinlichkeitsverteilungen ausgeben, kann dieses Problem vermieden werden, vorausgesetzt, diese Verteilungen lassen sich leicht abtasten. Daher werden Sie häufig Dinge wie Richtlinien sehen, die Parameter der Normalverteilung oder ähnliches steuern, da bekannt ist, wie diese Stichproben einfach abgetastet werden können.
Bei Wertfunktionsmethoden (oder kritischen Methoden) wählen wir normalerweise eine der folgenden Optionen, um unsere Aktionen auszuwählen, nachdem wir die relevante Wertfunktion geschätzt haben:
In Policy Gradient (oder Actor Methods) haben wir zwei Ansätze:
Aus dem Obigen können Sie deutlich erkennen, dass PG eine viel plausibelere Lösung bietet, wenn es um kontinuierlichen Aktionsraum geht.
Für weitere Informationen empfehle ich Ihnen die Masterarbeit PG Methods: SGD-DPG von Riashat. Er arbeitete eng mit einem der Mitautoren von Silvers DPG-Artikel zusammen und die Arbeit ist sehr gut strukturiert, wobei MATLAB-Code verfügbar ist. Richtlinienverlaufsmethoden sind aufgrund der Mathematik (und der häufig verwendeten unterschiedlichen Notation) viel schwieriger zu verstehen. Ich würde Ihnen jedoch empfehlen, bei Jan Peters zu beginnen und dann zu Silvers Folien zurückzukehren (meine Meinung :)).
quelle