Ist das Planen in Dyna-Q eine Form der Erfahrungswiederholung?

8

In Richard Suttons Buch über RL (2. Auflage) stellt er den Dyna-Q-Algorithmus vor, der Planung und Lernen kombiniert.

Im Planungsteil des Algorithmus tastet der Dyna-Agent zufällig n Zustands-Aktions-Paare zuvor vom Agenten gesehen wurden, speist dieses Paar in sein Umgebungsmodell ein und erhält einen abgetasteten nächsten Zustand und eine Belohnung . Es verwendet dann diesen Satz , um sein übliches Q-Learning-Update durchzuführen.(s,a)sr(s,a,r,s)

In einer deterministischen Umgebung sind die Belohnung und der nächste Zustand für ein gegebenes Zustands-Aktions-Paar . In seinem Kapitel über Dyna-Q bezeichnet Sutton diesen Prozess nicht als eine Form der Erfahrungswiederholung und führt das letztere Konzept erst viel später in das Buch ein. Ich kann jedoch den Unterschied (falls es einen gibt) zwischen diesen beiden Prozessen nicht wirklich erkennen.(st,at)(rt+1,st+1)

Ist es richtig zu sagen, dass in einer deterministischen Umgebung die Planung in Tabular Dyna-Q eine Form der Erfahrungswiedergabe ist ?

Tabellarische Dyna-Q aus Suttons Buch, Abschnitt 8.2

Julep
quelle

Antworten:

2

Ist es richtig zu sagen, dass in einer deterministischen Umgebung die Planung in Tabular Dyna-Q eine Form der Erfahrungswiedergabe ist?

Ich würde sagen, dass es nicht ganz richtig ist, dies zu sagen, nur weil die Begriffe "Experience Replay" und "Dyna-Q" so verstanden werden, dass sie sich auf bestimmte Implementierungen beziehen. Es ist wahr, dass sie in der von Ihnen beschriebenen spezifischen Situation ( tabellarische RL in deterministischen Umgebungen) ähnliche Dinge tun. Sie tun diese ähnlichen Dinge jedoch immer noch mit unterschiedlichen Implementierungen, was zu subtilen Unterschieden in der Praxis führen kann. Zum Beispiel haben die beiden Ideen wahrscheinlich unterschiedliche Speicheranforderungen. Aus diesem Grund denke ich nicht, dass es jemals richtig ist, einen Begriff zu verwenden, wenn der andere gemeint ist, obwohl sie in dieser Situation sehr nahe beieinander liegen.

Das Folgende ist ein Zitat aus der Schlussfolgerung von "Reinforcement Learning for Robots Using Neural Networks" (1993), Long-Ji Lins Dissertation. Dies ist eine der ersten Quellen für Experience Replay. Im gesamten Dokument werden Experience Replay und Dyna durchweg als unterschiedliche Ideen behandelt, jedoch mit vielen Ähnlichkeiten:

Diese Dissertation schlug eine Technik vor, die als Erfahrungswiederholung bezeichnet wird. Diese Technik nutzt tatsächlich ein Modell, hat jedoch nicht das schwierige Problem, ein Modell zu erstellen, da das Modell einfach die Sammlung vergangener Erfahrungen ist.

Der wichtige Unterschied liegt also nicht darin, was sie erreichen, sondern wie sie es tun. Sobald Sie über die von Ihnen beschriebene Einstellung hinausgehen ( Funktionsannäherung statt tabellarisch und / oder nicht deterministisch statt deterministisch), werden Sie deutlichere Unterschiede feststellen.

Dennis Soemers
quelle
0

In einigen Veröffentlichungen werden die beiden Konzepte als gleich angesehen, z. B. Krueger, Paul, Thomas Griffiths und Stuart J. Russell. "Modellfreies Verstärkungslernen mit modellbasierten Pseudorewards gestalten." (2017).

Es kann jedoch einen Unterschied in der Art und Weise geben, wie das Update durchgeführt wird. Dyna verwendet die Wertfunktion und den Vorhersagefehler direkt. Es kann somit eine einzelne simulierte Schrittaktualisierung verwenden.

Die Verwendung der Wiedergabe ähnelt möglicherweise eher der Verwendung von Montecarlo-Aktualisierungen, bei denen die kumulative Belohnung über eine Folge von Aktionen berücksichtigt wird und die Wertfunktion oder der Vorhersagefehler in der Aktualisierung nicht verwendet werden.

Z. Feldman und C. Domshlak, „Monte-Carlo-Baumsuche: An MC oder an DP?“, In ECAI 2014: 21. Europäische Konferenz für künstliche Intelligenz, 2014, vol. 263, p. 321

Dimitri Ognibene
quelle