In welchem ​​Verhältnis stehen Q-Learning-Methoden und Methoden mit politischen Verläufen?

20

Nach meinem Verständnis sind Q-Learning und Policy Gradients (PG) die beiden wichtigsten Ansätze zur Lösung von RL-Problemen. Während Q-Learning darauf abzielt, die Belohnung einer bestimmten Maßnahme in einem bestimmten Zustand vorherzusagen, prognostizieren Gradienten der Politik die Maßnahme selbst direkt.

Beide Ansätze erscheinen mir jedoch identisch, dh die Vorhersage der maximalen Belohnung für eine Aktion (Q-Learning) entspricht der Vorhersage der Wahrscheinlichkeit, dass die Aktion direkt durchgeführt wird (PG). Unterscheidet sich die Art und Weise, in der der Verlust rückpropagiert wird?

Tejas Ramdas
quelle

Antworten:

19

Beide Ansätze erscheinen mir jedoch identisch, dh die Vorhersage der maximalen Belohnung für eine Aktion (Q-Learning) entspricht der Vorhersage der Wahrscheinlichkeit, dass die Aktion direkt durchgeführt wird (PG).

Beide Methoden basieren theoretisch auf dem Markov-Entscheidungsprozess- Konstrukt und verwenden daher ähnliche Notationen und Konzepte. Darüber hinaus sollten Sie in einfachen lösbaren Umgebungen erwarten, dass beide Methoden zu denselben oder zumindest gleichwertigen optimalen Richtlinien führen.

Sie unterscheiden sich jedoch tatsächlich intern. Die grundlegendsten Unterschiede zwischen den Ansätzen bestehen darin, wie sie die Aktionsauswahl sowohl während des Lernens als auch als Ergebnis (die erlernte Politik) angehen. Beim Q-Learning besteht das Ziel darin, eine einzelne deterministische Aktion aus einer diskreten Menge von Aktionen zu lernen, indem der Maximalwert ermittelt wird. Bei Richtlinienverläufen und anderen direkten Richtliniensuchen besteht das Ziel darin, eine Karte von Status zu Aktion zu lernen, die stochastisch sein kann und in fortlaufenden Aktionsbereichen funktioniert.

Infolgedessen können Richtliniengradientenmethoden Probleme lösen, die mit wertebasierten Methoden nicht gelöst werden können:

  • Großer und durchgehender Aktionsraum. Mit wertebasierten Methoden kann dies jedoch immer noch mit Diskretisierung angenähert werden - und dies ist keine schlechte Wahl, da die Zuordnungsfunktion im Policy-Gradienten in der Praxis eine Art Näherungswert sein muss.

  • Stochastische Politik. Eine wertebasierte Methode kann eine Umgebung nicht lösen, in der die optimale Strategie stochastisch ist und bestimmte Wahrscheinlichkeiten erfordert, z. B. Scissor / Paper / Stone. Da es beim Q-Learning keine trainierbaren Parameter gibt, die die Handlungswahrscheinlichkeiten steuern, geht die Problemformulierung beim TD-Learning davon aus, dass ein deterministischer Agent optimal sein kann.

Wertebasierte Methoden wie Q-Learning haben jedoch auch einige Vorteile:

  • p(eins,θ)θ

  • Geschwindigkeit. TD-Lernmethoden, die Bootstraps durchführen, sind beim Erlernen einer Richtlinie häufig viel schneller als Methoden, die nur Stichproben aus der Umgebung entnehmen müssen, um den Fortschritt zu bewerten.

Es gibt andere Gründe, warum Sie den einen oder anderen Ansatz bevorzugen:

  • Möglicherweise möchten Sie die prognostizierte Rendite kennen, während der Prozess ausgeführt wird, um andere Planungsprozesse zu unterstützen, die dem Agenten zugeordnet sind.

  • Die staatliche Repräsentation des Problems bietet sich leichter für eine Wertfunktion oder eine politische Funktion an. Es kann sich herausstellen, dass eine Wertfunktion eine sehr einfache Beziehung zum Staat hat und dass die politische Funktion sehr komplex und schwer zu erlernen ist, oder umgekehrt .

Einige hochmoderne RL-Löser verwenden tatsächlich beide Ansätze zusammen, wie z. B. Actor-Critic. Dies kombiniert Wertstärken- und Policy-Gradienten-Methoden.

Neil Slater
quelle
Was meinen Sie, wenn Sie sagen, dass Schauspieler-Kritiker die Stärke beider Methoden kombiniert? Nach meinem Verständnis bewertet der Schauspieler die beste Maßnahme basierend auf dem Zustand, und der Kritiker bewertet den Wert dieses Zustandes und gibt dem Schauspieler dann eine Belohnung. Wenn ich sie als eine einzige "Policy" -Einheit behandle, sehe ich sie immer noch als einen Gradienten an. Warum ist das eigentlich wie Q-Learning?
Gulzar
1
@Guizar: Der Kritiker lernt mit einer wertebasierten Methode (zB Q-Learning). Insgesamt ist Actor-Critical also eine Kombination aus einer Wertemethode und einer Policy-Gradient-Methode und profitiert von der Kombination. Eine bemerkenswerte Verbesserung gegenüber "Vanille" -PG besteht darin, dass Gradienten bei jedem Schritt und nicht am Ende jeder Episode bewertet werden können. Wenn Sie nach einer detaillierteren Antwort zu diesem Thema suchen, sollten Sie auf der Website eine Frage stellen.
Neil Slater
@ Guizar: Tatsächlich kratzen Sie das (zB Q-Learning), da ich verwirrt bin zwischen Vorteilsschauspieler-Kritiker (der die Basislinie so anpasst, dass sie auf Aktionswerten basiert) und Kritiker, die normalerweise einen einfacheren Zustandswert haben. Der Rest ist jedoch immer noch derselbe, der Kritiker wird normalerweise mit wertebasierten TD-Methoden aktualisiert, wofür auch Q-Learning ein Beispiel ist.
Neil Slater