Multi-Agent-Schauspieler-Kritiker MADDPG-Algorithmus Verwirrung

7

Ich versuche, das Papier von openAI mit dem Titel Multi-Agent Actor-Critic für gemischte kooperativ-wettbewerbsorientierte Umgebungen zu verstehen

In dem Papier erwähnen sie, dass sie das Problem der Nichtstationarität der Umwelt bekämpfen, indem sie Stichproben aus Teilrichtlinien ziehen:

Geben Sie hier die Bildbeschreibung ein

Ich bin verwirrt über: (1) wie Subsampling das Problem der Nichtstationarität lösen würde und (2) warum die einzelnen Agenten mehr als eine mögliche (Sub-) Richtlinie haben würden - sollte es nicht für jeden Agenten eine einzige optimale Richtlinie geben?

Mellow
quelle

Antworten:

3

(1) wie eine Unterabtastung das Problem der Nichtstationarität lösen würde

Die Idee beim Abtasten einer Vielzahl von Unterrichtlinien, die andere Agenten während des Trainings ausführen sollen, besteht darin, dass dadurch das Verhalten konkurrierender Agenten abwechslungsreicher wird, anstatt immer nur gegen die neueste "Version" von Gegnern zu trainieren (was dazu führen kann) "Überanpassung" gegen diese Agenten). Wenn das Verhalten der Gegner unterschiedlich ist, muss Ihr Agent versuchen, eine robuste Richtlinie in dem Sinne zu erlernen, dass er versucht, eine Richtlinie zu erlernen, die mit allen Gegnern umgehen kann . Wenn Sie ohne diese Variante nur immer die neuesten Versionen von Gegnern auswählen würden, würde Ihr Agent stattdessen einen Anreiz erhalten, nur eine Richtlinie zu erlernen, die stark gegen die neuesten Versionen von Gegnern ist.

Betrachten Sie zum Beispiel das Spiel Rock-Paper-Scissors. Let und bezeichnen zwei Agenten , die gleichzeitig das Lernen sind. Angenommen, sie würden immer nur gegeneinander trainieren (anstatt durch Stichproben vielfältigere Trainingspartner zu haben). Angenommen, wird zufällig initialisiert, um meistens nur Rock zu spielen, und wird zufällig initialisiert, um meistens nur Papier zu spielen.P1P2P1P2

P2 gewinnt zunächst die meisten seiner Spiele, und lernt dann sehr oft, nur Schere zu spielen. Sobald das gelernt hat, lernt sehr oft Rock zu spielen. Sobald dies erledigt ist, lernt sehr oft, Papier zu spielen. Beide Agenten werden einfach in solchen Kreisen weitermachen und immer nur lernen, dem jüngsten Verhalten des anderen Spielers entgegenzuwirken.P1P1P2P1

Wenn wir stattdessen mehr Vielfalt bei den Schulungspartnern einführen, indem wir aus einem Ensemble mehrerer erlernter Richtlinien auswählen, werden wir eher zur optimalen Strategie der einheitlichen Auswahl von Aktionen nach dem Zufallsprinzip konvergieren. Dies ist die einzige Strategie, die sich gegen ein Ensemble unterschiedlicher Richtlinien wahrscheinlich gut behaupten wird.


(2) Warum sollten die einzelnen Agenten mehr als eine mögliche (Unter-) Richtlinie haben - sollte es nicht für jeden Agenten eine einzige optimale Richtlinie geben?

Letztendlich wollen wir oft zu einer einzigen *, optimalen Richtlinie für jeden Agenten konvergieren, ja. Aber normalerweise haben wir das noch nicht ... deshalb machen wir überhaupt erst Reinforcement Learning! Wir wissen nicht , wie eine optimale (oder auch nur eine gute) Politik aussieht, das müssen wir zuerst lernen. Wenn wir während dieses Lernprozesses möchten (was wir auf der Grundlage der Argumentation in meiner Antwort auf Ihre vorherige Frage oben tun), können wir leicht nur ein Ensemble verschiedener Richtlinien lernen, anstatt eine einzelne Richtlinie zu lernen. Dies kann zum Beispiel einfach dadurch geschehen, dass jede Teilrichtlinie auf eine andere Teilmenge der von uns gesammelten Erfahrungen trainiert wird.

Dennis Soemers
quelle