Verstärkungslernen in instationärer Umgebung

9

Frage 1: Gibt es gemeinsame oder akzeptierte Methoden für den Umgang mit instationären Umgebungen beim Reinforcement-Lernen im Allgemeinen?

F2: In meiner Gridworld ändert sich die Belohnungsfunktion, wenn ein Staat besucht wird. In jeder Episode werden die Belohnungen auf den Ausgangszustand zurückgesetzt. Ich möchte nur, dass mein Agent lernt: "Gehen Sie nicht zurück, es sei denn, Sie müssen es wirklich". Dies macht die Umgebung jedoch instationär. Kann / sollte diese sehr einfache Regel in das MDP-Modell aufgenommen werden und wie? Ist Q-Learning die beste Lösung, um dieses Problem zu lösen? Anregungen oder verfügbare Beispiele?

F3: Ich habe mich mit Q-Learning mit Erfahrungswiedergabe als Lösung für den Umgang mit instationären Umgebungen befasst, da es aufeinanderfolgende Updates dekorreliert. Ist dies die richtige Anwendung der Methode oder geht es eher darum, das Lernen dateneffizienter zu gestalten? Und ich habe es nur mit Wertannäherung gesehen. Ich bin mir nicht sicher, ob es ein Overkill ist, es für einen einfachen diskretisierten Zustandsraum wie gridworld zu verwenden, oder es gibt einen anderen Grund dafür.

Bitte zögern Sie nicht zu antworten oder zu kommentieren, auch wenn Sie nicht alle Fragen beantworten können.

Voltronika
quelle

Antworten:

10

Frage 1: Gibt es gemeinsame oder akzeptierte Methoden für den Umgang mit instationären Umgebungen beim Reinforcement-Lernen im Allgemeinen?

α

Dies behebt jedoch die längerfristige Nichtstationarität, wie das Problem, das sich zwischen Episoden ändert, oder über einen noch längeren Zeitraum. Ihre Beschreibung sieht eher so aus, als ob Sie die Belohnungsstruktur basierend auf den vom Agenten ergriffenen Maßnahmen innerhalb eines kurzen Zeitraums ändern möchten. Diese dynamische Reaktion auf Aktionen wird besser als ein anderes komplexeres MDP dargestellt, nicht als "Nichtstationarität" innerhalb eines einfacheren MDP.

Ein Agent kann keine Änderungen an der Umgebung erfahren, die er noch nicht abgetastet hat. Eine Änderung der Belohnungsstruktur hindert den Agenten daher nicht daran, in zuvor besuchte Zustände zurückzukehren. Sofern Sie im Agenten nicht so etwas wie eine RNN verwenden, hat der Agent keine "Erinnerung" an das, was zuvor in der Episode passiert ist, außer an das, was im aktuellen Status dargestellt ist (die Verwendung einer RNN macht möglicherweise die verborgene Schicht des RNN-Teils aus des Staates). Wenn Sie in mehreren Episoden einen tabellarischen Q-Learning-Agenten verwenden, erfährt der Agent einfach, dass bestimmte Zustände einen niedrigen Wert haben. Er kann nicht feststellen, dass zweite oder dritte Besuche des Zustands diesen Effekt verursachen, da er keinen hat Weg, um dieses Wissen darzustellen. Es wird nicht in der Lage sein, sich schnell genug an die Änderung anzupassen, um online und in der Mitte der Episode zu lernen.

F2: In meiner Gridworld ändert sich die Belohnungsfunktion, wenn ein Staat besucht wird. Ich möchte nur, dass mein Agent lernt: "Gehen Sie nicht zurück, es sei denn, Sie müssen es wirklich". Dies macht die Umgebung jedoch instationär.

Wenn das alles ist, was der Agent lernen muss, kann dies möglicherweise durch eine geeignete Belohnungsstruktur gefördert werden. Bevor Sie dies tun können, müssen Sie sich selbst verstehen, was "wirklich muss" bedeutet und wie eng das logisch sein muss. Sie können jedoch in Ordnung sein, indem Sie eine Strafe für den Besuch eines Standorts zuweisen, den der Agent bereits oder kürzlich besucht hat.

Kann / sollte diese sehr einfache Regel in das MDP-Modell aufgenommen werden und wie?

Ja, Sie sollten dem Bundesstaat Informationen zu besuchten Orten hinzufügen. Dies macht Ihr Zustandsmodell sofort komplexer als eine einfache Gitterwelt und erhöht die Dimensionalität des Problems, ist jedoch unvermeidbar. Die meisten Probleme der realen Welt wachsen sehr schnell aus den Spielzeugbeispielen heraus, die zur Vermittlung von RL-Konzepten bereitgestellt werden.

Eine Alternative besteht darin, das Problem als partiell beobachtbaren Markov-Entscheidungsprozess (POMDP) ​​zu definieren . In diesem Fall würde der "wahre" Zustand immer noch den gesamten notwendigen Verlauf enthalten, um die Belohnungen zu berechnen (und da dies ein Spielzeugproblem auf einem Computer ist, müssten Sie es immer noch irgendwie darstellen), aber der Agent kann versuchen, von eingeschränkt zu lernen Kenntnis des Staates, genau das, was Sie beobachten lassen. Im Allgemeinen ist dies ein viel schwierigerer Ansatz als die Erweiterung der staatlichen Vertretung, und ich würde ihn hier nicht empfehlen. Wenn Sie die Idee jedoch interessant finden, können Sie Ihr Problem verwenden, um POMDPs zu untersuchen. In diesem kürzlich erschienenen Artikel (vom Deep Mind-Team von Google, 2015) werden zwei RL-Algorithmen in Kombination mit RNNs zur Lösung von POMDPs untersucht.

F3: Ich habe mich mit Q-Learning mit Erfahrungswiedergabe als Lösung für den Umgang mit instationären Umgebungen befasst, da es aufeinanderfolgende Updates dekorreliert. Ist dies die richtige Anwendung der Methode oder geht es eher darum, das Lernen dateneffizienter zu gestalten?

Erfahrungswiedergabe hilft in instationären Umgebungen nicht. In der Tat könnte es die Leistung in ihnen verschlechtern. Wie bereits erwähnt, geht es bei Ihrem Problem jedoch nicht wirklich um eine instationäre Umgebung, sondern um die Behandlung komplexerer Zustandsdynamiken.

648×8264

Mit einem Funktionsschätzer ist die Wiedergabe von Erfahrungen sehr nützlich, da der Lernprozess ohne ihn wahrscheinlich instabil ist. Der jüngste DQN-Ansatz zum Spielen von Atari-Spielen verwendet aus diesem Grund die Erfahrungswiedergabe.

Neil Slater
quelle
Wenn die Umgebung nicht stationär ist, wie gehen Sie dann mit der Tatsache um, dass im Beispiel der Gitterwelt der Zustand zum Zeitpunkt t = 1 nicht mit dem Zustand zum Zeitpunkt t = 2 identisch ist? Wenn Sie sie als separate Zustände behandeln, wird die Dimensionalität Ihres Zustandsraums sicherlich einfach explodieren?
versuchen,
@tryingtolearn: Der springende Punkt eines Markov-Status ist, dass er alle wichtigen Details darüber erfasst, wie sich das MDP von diesem Punkt aus entwickeln wird. Typischerweise unterscheidet sich der Zustand bei t = 1 nicht von dem Zustand bei t = 2 in Bezug auf die erwartete zukünftige Belohnung und die Zustandsübergänge. Wenn Sie mit Regeln enden, die auf dem Wert von t basieren, setzen Sie t in den Zustand. Dies kann passieren, wenn Sie zu jedem Zeitpunkt eine Belohnung erhalten können, die Anzahl der Zeitschritte jedoch begrenzt ist - die Episode endet beispielsweise immer bei t = 10. In diesem Fall könnte es wichtig sein, Ihre verbleibende Zeit zu kennen
Neil Slater,
@NeilSlater können Sie die POMDP- und RNN-Ideen in Ihrer Antwort erweitern? Sie klingen interessant. Und wenn möglich, geben Sie relevante Quellen an, da es manchmal schwierig ist, in der Literatur zu navigieren. Ich mag die Idee, die Reihenfolge der besuchten Staaten beizubehalten, wirklich nicht, obwohl dies das einzige ist, an das ich bisher denken könnte, also suche ich nach anderen Optionen. Das Modell wird auf diese Weise überkompliziert, da ich eine sehr einfache Regel einführen muss. Ich bin mir nicht sicher, ob mir etwas sehr Offensichtliches fehlt oder ich einfach nicht das richtige Modell und die richtige Formulierung verwende.
Voltronika
@NeilSlater Kann dies nicht durch die Verwendung von Richtliniengradientenmethoden unterstützt werden? Wissen Sie in der Praxis zufällig, wie der Standard für die Lösung dieser Art von Problemen lautet?
versuchen,
1
@ Voltronika Ich habe die Antwort um einen Absatz über POMDPs erweitert. Beachten Sie, dass die Festlegung Ihres Problems als POMDP die Bearbeitung und Lösung erheblich erschwert, als die Erweiterung des Status um einen geeigneten Speicher für besuchte Standorte. Ich schlage vor, Sie prüfen dies nur, wenn das Studium von POMDPs ein Ziel ist.
Neil Slater
0

Q1: Q-Lernen ist ein Online-Lernalgorithmus, der gut mit der stationären Umgebung zusammenarbeitet. Es kann auch mit einem instationären Modell verwendet werden, unter der Bedingung, dass sich das Modell (Belohnungsfunktion und Übergangswahrscheinlichkeiten) nicht schnell ändert.

Khalid Ibrahim
quelle