Ich kämpfe darum, den Unterschied zwischen Schauspieler-Kritiker und Vorteil-Schauspieler-Kritiker zu verstehen.
Zumindest weiß ich, dass sie sich von A3C (Asynchronous Advantage Actor-Critical) unterscheiden, da A3C einen asynchronen Mechanismus hinzufügt, der mehrere Worker-Agenten verwendet, die mit ihrer eigenen Kopie der Umgebung interagieren, und den Gradienten an den globalen Agenten meldet.
Aber was ist der Unterschied zwischen dem Schauspieler-Kritiker und dem Vorteils-Schauspieler-Kritiker (A2C)? Ist es einfach mit oder ohne Vorteilsfunktion ? Aber hat der Schauspieler-Kritiker dann eine andere Implementierung als die Verwendung der Vorteilsfunktion?
Oder sind sie vielleicht Synonyme und Schauspieler-Kritiker ist nur eine Abkürzung für A2C?
Laut Sutton und Barto sind sie dasselbe. Anmerkung 13.5-6 (Seite 338) ihres Reinforcement Learning: Eine Einführung, 2. Auflage Buch:
quelle
Obwohl das Wort "Vorteil" im Bereich der Schauspieler-Kritiker verwendet wurde, um den Unterschied zwischen dem staatlichen Wert und dem staatlichen Aktionswert zu bezeichnen, bringt A2C die Ideen von A3C ein. In A3C interagieren mehrere Worker-Netzwerke mit verschiedenen Kopien der Umgebung (asynchrones Lernen) und aktualisieren ein Master-Netzwerk nach festgelegten Schritten. Dies sollte Instabilitätsprobleme lösen, die sowohl mit der Aktualisierungsmethode für zeitliche Unterschiede als auch mit Korrelationen innerhalb der durch neuronale Netze erzeugten Vorhersage- und Zielwerte verbunden sind. OpenAI stellte jedoch fest, dass die Asynchronität nicht erforderlich war, dh es gab keinen praktischen Vorteil, unterschiedliche Arbeiternetzwerke zu haben. Stattdessen hatten sie dieselbe Kopie des Netzwerks, die mit verschiedenen Kopien der Umgebung interagierte (eine funktioniert von Anfang an, ein anderer arbeitet vom Ende rückwärts) und sie werden sofort aktualisiert, ohne dass der Master wie in A3C zurückbleibt. Das Entfernen der Asynchronität führte zu A2C.
quelle