Es wird garantiert, dass der tabellarische Q-Lernalgorithmus die optimale Funktion Q ∗ findet , vorausgesetzt, die folgenden Bedingungen (die Robbins-Monro-Bedingungen ) bezüglich der Lernrate sind erfüllt
wobei die Lernrate bedeutet, die verwendet wird, wenn der Wert aktualisiert wird, der dem Zustand und der Aktion zum Zeitpunkt , wobei als wahr angenommen wird; für alle Zustände und Aktionen .
der Tatsache, dass , müssen anscheinend alle Zustands-Aktions-Paare unendlich oft besucht werden, damit die beiden Bedingungen erfüllt sind. Dies wird auch im Buch Reinforcement Learning: An Introduction angegeben Abgesehen von der Tatsache, dass dies allgemein bekannt sein sollte und dies der Grund für die Verwendung der Greedy-Richtlinie (oder ähnlicher Richtlinien) während des Trainings ist.
Ein vollständiger Beweis, der zeigt, dass das Lernen die optimale Funktion findet, findet sich in der Arbeit Konvergenz des Q-Lernens: Ein einfacher Beweis (von Francisco S. Melo). Er verwendet Konzepte wie die Kontraktionsabbildung , um die optimale Funktion zu definieren (siehe auch Was ist der Bellman-Operator beim Verstärkungslernen? ), Die ein fester Punkt dieses Kontraktionsoperators ist. Er verwendet auch einen Satz (Nr. 2) bezüglich des Zufallsprozesses , der unter einigen Annahmen gegen konvergiert . (Der Beweis ist möglicherweise nicht leicht zu befolgen, wenn Sie kein Mathematiker sind.)Q 0
Wenn ein neuronales Netzwerk zur Darstellung der Funktion verwendet wird, gelten die Konvergenzgarantien des Lernens noch? Warum konvergiert (oder nicht) Q-Learning bei Verwendung der Funktionsnäherung? Gibt es einen formalen Beweis für eine solche Nichtkonvergenz des Lernens unter Verwendung der Funktionsnäherung?
Ich suche nach verschiedenen Arten von Antworten, von denen, die nur die Intuition hinter der Nichtkonvergenz des Lernens bei der Verwendung der Funktionsnäherung vermitteln, bis zu denen, die einen formalen Beweis liefern (oder einen Link zu einem Papier mit einem formalen Beweis).
Antworten:
Hier ist eine intuitive Antwort auf die Beschreibung:
Die Funktionsnäherung kann mit jeder parametrierbaren Funktion erfolgen. Betrachten Sie das Problem einerQ(s,a) Raum , in den s die positiven reellen Zahlen ist, a ist 0 oder 1 , und die wahre Q-Funktion Q(s,0)=s2 , und Q(s,1)=2s2 für alle Staaten. Wenn Ihr Funktionsapproximator Q(s,a)=m∗s+n∗a+b , es gibt keine Parameter, die die wahreQ Funktiongenau darstellenkönnen (wir versuchen, eine Linie an eine quadratische Funktion anzupassen). Selbst wenn Sie eine gute Lernrate gewählt haben und unendlich oft alle Zustände besuchen, wird Ihre Approximationsfunktion daher niemals zur wahrenQ Funktionkonvergieren.
Und hier noch ein bisschen mehr Details:
Neuronale Netze sind Approximatoren für universelle Funktionen . Dies bedeutet, dass Sie, wenn Sie eine Funktion haben, auch ein neuronales Netzwerk erstellen können, das tief oder breit genug ist, um die von Ihnen erstellte Funktion beliebig genau zu approximieren. Eine bestimmte Netzwerktopologie, die Sie auswählen, kann jedoch nicht alle Funktionen erlernen , es sei denn, sie ist unendlich breit oder unendlich tief. Dies ist analog dazu, wie bei Auswahl der richtigen Parameter eine Linie auf zwei beliebige Punkte passen kann, jedoch nicht auf drei beliebige Punkte. Wenn Sie ein Netzwerk mit einer bestimmten endlichen Breite oder Tiefe auswählen, kann ich immer eine Funktion konstruieren, die ein paar weitere Neuronen benötigt, um richtig zu passen.
Die Grenzen des Q-Lernens gelten nur, wenn die Darstellung der Q-Funktion genau ist . Angenommen, Sie haben Ihre Q-Funktion mit einer linearen Interpolation approximiert, um zu sehen, warum. Wenn die wahre Funktion überhaupt irgendeine Form annehmen kann, kann der Fehler in unserer Interpolation eindeutig unbegrenzt groß gemacht werden, indem einfach eine XOR-ähnliche Q-Funktionsfunktion konstruiert wird, und keine zusätzliche Zeit oder Daten erlauben es uns, diesen Fehler zu reduzieren . Wenn Sie einen Funktionsapproximator verwenden und die wahre Funktion, die Sie anpassen möchten, nichtWenn sich die Funktion beliebig gut annähern lässt, konvergiert Ihr Modell selbst bei einer ausgewählten Lernrate und Explorationsrate nicht richtig. Unter Verwendung der Terminologie der rechnergestützten Lerntheorie können wir sagen, dass die Konvergenzbeweise für das Q-Lernen implizit angenommen haben, dass die wahre Q-Funktion ein Mitglied des Hypothesenraums ist, aus dem Sie Ihr Modell auswählen.
quelle
Soweit mir bekannt ist, ist es immer noch ein offenes Problem, ein wirklich klares, formales Verständnis dafür zu erhalten, warum / wann wir einen Mangel an Konvergenz haben - oder, schlimmer noch, manchmal die Gefahr einer Divergenz. Es wird typischerweise der "tödlichen Triade" (siehe 11.3 der zweiten Ausgabe von Sutton und Bartos Buch) zugeschrieben, der Kombination von:
Das gibt uns nur eine (möglicherweise nicht erschöpfende) Beschreibung von Fällen, in denen wir eine mangelnde Konvergenz und / oder die Gefahr einer Divergenz haben, sagt uns aber immer noch nicht, warum dies in diesen Fällen der Fall ist.
Johns Antwort liefert bereits die Intuition, dass ein Teil des Problems einfach darin besteht, dass die Verwendung der Funktionsnäherung leicht zu Situationen führen kann, in denen Ihr Funktionsnäherungsgerät nicht leistungsfähig genug ist, um die wahreQ∗ -Funktion darzustellen. Möglicherweise gibt es immer Annäherungsfehler, die unmöglich sind loszuwerden, ohne auf einen anderen Funktionsapproximator umzuschalten.
Persönlich denke ich, dass diese Intuition hilft zu verstehen, warum der Algorithmus die Konvergenz zur optimalen Lösung nicht garantieren kann, aber ich würde dennoch intuitiv erwarten, dass er möglicherweise zu einer "stabilen" Lösung "konvergieren" kann, die die bestmögliche Annäherung darstellt die Einschränkungen, die der gewählten Funktionsdarstellung inhärent sind. In der Tat beobachten wir dies in der Praxis, wenn wir auf ein On-Policy-Training (z. B. Sarsa) umsteigen, zumindest im Fall von linearen Funktionsapproximatoren.
Meine eigene Intuition in Bezug auf diese Frage war im Allgemeinen, dass eine wichtige Quelle des Problems die Verallgemeinerung ist . In der tabellarischen Einstellung haben wir die EinträgeQ ( s , a ) für alle ( s , a ) Paare vollständig isoliert . Jedes Mal, wenn wir unsere Schätzung für einen Eintrag aktualisieren, bleiben alle anderen Einträge unverändert (zumindest anfänglich - es kann aufgrund des Bootstrappings in der Aktualisierungsregel einige Auswirkungen auf andere Einträge in zukünftigen Updates geben). Aktualisierungsregeln für Algorithmen wie Q. Learning und Sarsa werden manchmal in die "falsche" Richtung aktualisiert, wenn wir "Pech" haben, aber in Erwartungaktualisieren sie im Allgemeinen in die richtige "Richtung". Intuitiv bedeutet dies, dass wir in der tabellarischen Einstellung erwartungsgemäß langsam und schrittweise Fehler in Einträgen isoliert beheben, ohne möglicherweise andere Einträge zu beschädigen.
Wenn wir bei der Funktionsnäherung unsereQ ( s , a ) -Schätzung für ein ( s , a ) Paar aktualisieren , kann dies möglicherweise auch alle anderen Schätzungen für alle anderen Zustands-Aktions-Paare beeinflussen. Intuitiv bedeutet dies, dass wir nicht mehr die nette Isolation von Einträgen wie in der Tabelleneinstellung haben und das "Beheben" von Fehlern in einem Eintrag das Risiko birgt, anderen Einträgen neue Fehler hinzuzufügen. Wie Johns Antwort würde diese ganze Intuition jedoch auch für On-Policy-Algorithmen gelten, sodass sie immer noch nicht erklärt, was das Besondere an Q. Learning (und anderen Off-Policy-Ansätzen) ist.
Finally, another (even more recent) paper that I suspect is relevant to this question is Diagnosing Bottlenecks in Deep Q-learning Algorithms, but unfortunately I have not yet had the time to read it in sufficient detail and adequately summarise it.
quelle