Was ist der Unterschied zwischen Schauspieler-Kritiker und Vorteils-Schauspieler-Kritiker?

11

Ich kämpfe darum, den Unterschied zwischen Schauspieler-Kritiker und Vorteil-Schauspieler-Kritiker zu verstehen.

Zumindest weiß ich, dass sie sich von A3C (Asynchronous Advantage Actor-Critical) unterscheiden, da A3C einen asynchronen Mechanismus hinzufügt, der mehrere Worker-Agenten verwendet, die mit ihrer eigenen Kopie der Umgebung interagieren, und den Gradienten an den globalen Agenten meldet.

Aber was ist der Unterschied zwischen dem Schauspieler-Kritiker und dem Vorteils-Schauspieler-Kritiker (A2C)? Ist es einfach mit oder ohne Vorteilsfunktion ? Aber hat der Schauspieler-Kritiker dann eine andere Implementierung als die Verwendung der Vorteilsfunktion?

Oder sind sie vielleicht Synonyme und Schauspieler-Kritiker ist nur eine Abkürzung für A2C?

reinforcement-learning terminology actor-critic comparison advantage-actor-critic Blaszard
quelle

11

Actor-Critic ist nicht nur ein einzelner Algorithmus, sondern sollte als "Familie" verwandter Techniken angesehen werden. Dies sind alles Techniken, die auf dem Theorem des Richtliniengradienten basieren und eine Form von Kritik trainieren, die eine Form der Wertschätzung berechnet, um sie in die Aktualisierungsregel einzufügen, um die Renditen am Ende einer Episode mit geringerer Varianz zu ersetzen. Sie alle führen ein "Bootstrapping" durch, indem sie eine Art Wertvorhersage verwenden.

Advantage Actor-Critic verwendet speziell Schätzungen der Vorteilsfunktion $A(s, a) = V(s) - Q(s, a)$ für sein Bootstrapping, während "Schauspieler-Kritiker" ohne das Qualifikationsmerkmal "Vorteil" nicht spezifisch ist; es könnte ein ausgebildeter sein $V(s)$ Funktion könnte es eine Art Schätzung von sein $Q(s, a)$ Es könnte eine Vielzahl von Dingen sein.

In der Praxis kann der Kritiker von Advantage Actor-Critic-Methoden tatsächlich nur zur Vorhersage geschult werden $V(s)$ . Kombiniert mit einer empirisch beobachteten Belohnung $r$ können sie dann die Vorteilsschätzung berechnen $A(s, a) = r + \gamma V(s') - V(s)$ .

Dennis Soemers
quelle

1

Schöne Klarstellung. Kennen Sie ein Beispiel für eine Schauspieler-Kritiker-Methode, die kein Vorteil für Schauspieler-Kritiker ist? Wäre es auch fair zu sagen, dass PPO eine Art Vorteilsmethode für Schauspieler und Kritiker ist?

Mei Zhang

1

@MeiZhang Einige Optionen sind aufgelistet hier , aber ich glaube nicht, dass sie wirklich klare Namen haben. Vorteile sind sicherlich die am häufigsten genutzten. Sicher, PPO könnte als eine vorteilhafte Schauspieler-Kritiker-Methode angesehen werden.

Dennis Soemers

2

Laut Sutton und Barto sind sie dasselbe. Anmerkung 13.5-6 (Seite 338) ihres Reinforcement Learning: Eine Einführung, 2. Auflage Buch:

Schauspieler-Kritiker-Methoden werden in der Literatur manchmal als vorteilhafte Schauspieler-Kritiker-Methoden bezeichnet

Budi Kurniawan
quelle

0

Obwohl das Wort "Vorteil" im Bereich der Schauspieler-Kritiker verwendet wurde, um den Unterschied zwischen dem staatlichen Wert und dem staatlichen Aktionswert zu bezeichnen, bringt A2C die Ideen von A3C ein. In A3C interagieren mehrere Worker-Netzwerke mit verschiedenen Kopien der Umgebung (asynchrones Lernen) und aktualisieren ein Master-Netzwerk nach festgelegten Schritten. Dies sollte Instabilitätsprobleme lösen, die sowohl mit der Aktualisierungsmethode für zeitliche Unterschiede als auch mit Korrelationen innerhalb der durch neuronale Netze erzeugten Vorhersage- und Zielwerte verbunden sind. OpenAI stellte jedoch fest, dass die Asynchronität nicht erforderlich war, dh es gab keinen praktischen Vorteil, unterschiedliche Arbeiternetzwerke zu haben. Stattdessen hatten sie dieselbe Kopie des Netzwerks, die mit verschiedenen Kopien der Umgebung interagierte (eine funktioniert von Anfang an, ein anderer arbeitet vom Ende rückwärts) und sie werden sofort aktualisiert, ohne dass der Master wie in A3C zurückbleibt. Das Entfernen der Asynchronität führte zu A2C.

EArwa
quelle

Was ist der Unterschied zwischen Schauspieler-Kritiker und Vorteils-Schauspieler-Kritiker?

Antworten: