Unterschied zwischen Advantage Actor Critic und TD Actor Critic?

7

Ich habe eine Frage zu Methoden der Schauspielerkritik beim Lernen zur Stärkung.

In diesen Folien ( https://hadovanhasselt.files.wordpress.com/2016/01/pg1.pdf ) werden verschiedene Arten von Schauspieler-Kritikern erläutert. Vorteil Schauspieler Kritiker und TD Schauspieler Kritiker werden auf der letzten Folie erwähnt:

Geben Sie hier die Bildbeschreibung ein

Wenn ich mir aber die Folie "Schätzen der Vorteilsfunktion (2)" anschaue, heißt es, dass die Vorteilsfunktion durch den td-Fehler angenähert werden kann. Dann enthält die Aktualisierungsregel den td-Fehler auf dieselbe Weise wie bei TD Actor Critical.

Also ist Vorteilsschauspielerkritiker und td Schauspielerkritiker eigentlich gleich? Oder gibt es einen Unterschied, den ich nicht sehe?

needRhelp
quelle

Antworten:

0

Der Vorteil kann durch einen TD-Fehler angenähert werden. Dies kann insbesondere dann hilfreich sein, wenn Sie ein Update durchführen möchtenθ nach jedem Übergang.

Für die Batch-Ansätze können Sie berechnen Qw(A,S) zB mittels angepasster Q-Iteration und anschließend V(S). Auf diese Weise haben Sie die allgemeine Vorteilsfunktion und Ihre Gradientenänderung der Richtlinie ist möglicherweise viel stabiler, da sie näher an der globalen / tatsächlichen Vorteilsfunktion liegt.

Karel Macek
quelle
0

Sie sind anders. Vorteil ist der Unterschied zwischen Aktionswert und Zustandswert. TD-Fehler ist der Fehlerterm, den die Wertfunktion minimieren möchte.

Der TD-Fehler kann verwendet werden, um den Vorteil zu approximieren. Es gibt auch andere Möglichkeiten, den Vorteil zu approximieren, wie z (return - state_value).

SQ
quelle