Beide Ansätze erscheinen mir jedoch identisch, dh die Vorhersage der maximalen Belohnung für eine Aktion (Q-Learning) entspricht der Vorhersage der Wahrscheinlichkeit, dass die Aktion direkt durchgeführt wird (PG).
Beide Methoden basieren theoretisch auf dem Markov-Entscheidungsprozess- Konstrukt und verwenden daher ähnliche Notationen und Konzepte. Darüber hinaus sollten Sie in einfachen lösbaren Umgebungen erwarten, dass beide Methoden zu denselben oder zumindest gleichwertigen optimalen Richtlinien führen.
Sie unterscheiden sich jedoch tatsächlich intern. Die grundlegendsten Unterschiede zwischen den Ansätzen bestehen darin, wie sie die Aktionsauswahl sowohl während des Lernens als auch als Ergebnis (die erlernte Politik) angehen. Beim Q-Learning besteht das Ziel darin, eine einzelne deterministische Aktion aus einer diskreten Menge von Aktionen zu lernen, indem der Maximalwert ermittelt wird. Bei Richtlinienverläufen und anderen direkten Richtliniensuchen besteht das Ziel darin, eine Karte von Status zu Aktion zu lernen, die stochastisch sein kann und in fortlaufenden Aktionsbereichen funktioniert.
Infolgedessen können Richtliniengradientenmethoden Probleme lösen, die mit wertebasierten Methoden nicht gelöst werden können:
Großer und durchgehender Aktionsraum. Mit wertebasierten Methoden kann dies jedoch immer noch mit Diskretisierung angenähert werden - und dies ist keine schlechte Wahl, da die Zuordnungsfunktion im Policy-Gradienten in der Praxis eine Art Näherungswert sein muss.
Stochastische Politik. Eine wertebasierte Methode kann eine Umgebung nicht lösen, in der die optimale Strategie stochastisch ist und bestimmte Wahrscheinlichkeiten erfordert, z. B. Scissor / Paper / Stone. Da es beim Q-Learning keine trainierbaren Parameter gibt, die die Handlungswahrscheinlichkeiten steuern, geht die Problemformulierung beim TD-Learning davon aus, dass ein deterministischer Agent optimal sein kann.
Wertebasierte Methoden wie Q-Learning haben jedoch auch einige Vorteile:
p ( a ∣ s , θ )θ
Geschwindigkeit. TD-Lernmethoden, die Bootstraps durchführen, sind beim Erlernen einer Richtlinie häufig viel schneller als Methoden, die nur Stichproben aus der Umgebung entnehmen müssen, um den Fortschritt zu bewerten.
Es gibt andere Gründe, warum Sie den einen oder anderen Ansatz bevorzugen:
Möglicherweise möchten Sie die prognostizierte Rendite kennen, während der Prozess ausgeführt wird, um andere Planungsprozesse zu unterstützen, die dem Agenten zugeordnet sind.
Die staatliche Repräsentation des Problems bietet sich leichter für eine Wertfunktion oder eine politische Funktion an. Es kann sich herausstellen, dass eine Wertfunktion eine sehr einfache Beziehung zum Staat hat und dass die politische Funktion sehr komplex und schwer zu erlernen ist, oder umgekehrt .
Einige hochmoderne RL-Löser verwenden tatsächlich beide Ansätze zusammen, wie z. B. Actor-Critic. Dies kombiniert Wertstärken- und Policy-Gradienten-Methoden.