Die Website für künstliche Intelligenz definiert das Lernen außerhalb der Politik und innerhalb der Politik wie folgt:
"Ein außervertraglicher Lernender lernt den Wert der optimalen Richtlinie unabhängig von den Aktionen des Agenten. Q-Learning ist ein außervertraglicher Lernender. Ein außervertraglicher Lernender lernt den Wert der Richtlinie, die vom Agenten ausgeführt wird, einschließlich der Explorationsschritte . "
Ich möchte Sie diesbezüglich um Klarstellung bitten, da sie für mich keinen Unterschied zu machen scheinen. Beide Definitionen scheinen identisch zu sein. Was ich tatsächlich verstanden habe, ist das modellfreie und modellbasierte Lernen, und ich weiß nicht, ob sie etwas mit den fraglichen zu tun haben.
Wie ist es möglich, dass die optimale Richtlinie unabhängig von den Aktionen des Agenten gelernt wird? Wird die Richtlinie nicht gelernt, wenn der Agent die Aktionen ausführt?
Antworten:
Erstens gibt es keinen Grund, warum ein Agent die gierige Aktion ausführen muss . Agenten können nach Optionen suchen oder ihnen folgen . Dies ist nicht das, was das Lernen außerhalb der Politik vom Lernen innerhalb der Politik trennt.
Der Grund, warum Q-Learning nicht in der Politik ist, besteht darin, dass es seine Q-Werte unter Verwendung des Q-Werts des nächsten Zustandss′ und der gierigen Aktion ein′ aktualisiert . Mit anderen Worten, er schätzt die Rendite (abgezinste zukünftige Gesamtbelohnung) für Handlungspaare unter der Annahme, dass eine gierige Politik befolgt wurde, obwohl sie keiner gierigen Politik folgt.
Die Unterscheidung verschwindet, wenn die aktuelle Richtlinie eine gierige Richtlinie ist. Ein solcher Agent wäre jedoch nicht gut, da er niemals untersucht.
Haben Sie sich das kostenlose Online-Buch angesehen? Richard S. Sutton und Andrew G. Barto. Reinforcement Learning: Eine Einführung. Zweite Ausgabe, MIT Press, Cambridge, MA, 2018.
quelle
Richtlinienmethoden schätzen den Wert einer Richtlinie, während sie zur Steuerung verwendet werden.
Bei Methoden außerhalb der Richtlinie kann die zum Generieren von Verhalten verwendete Richtlinie, die so genannte Verhaltensrichtlinie , in keinem Zusammenhang mit der Richtlinie stehen, die bewertet und verbessert wird, die so genannte Schätzrichtlinie .
Ein Vorteil dieser Trennung besteht darin, dass die Schätzungsrichtlinie deterministisch sein kann (z. B. gierig), während die Verhaltensrichtlinie weiterhin alle möglichen Aktionen abtasten kann.
Weitere Einzelheiten finden Sie in den Abschnitten 5.4 und 5.6 des Buches Reinforcement Learning: Eine Einführung von Barto und Sutton, erste Ausgabe.
quelle
Der Unterschied zwischen den Methoden Off-Policy und On-Policy besteht darin, dass sich Ihr Agent beim ersten Mal, wenn Sie keine bestimmte Richtlinie einhalten müssen, möglicherweise sogar zufällig verhält. Trotzdem können die Methoden Off-Policy immer noch die optimale Richtlinie finden. Auf der anderen Seite hängen die Richtlinienmethoden von der verwendeten Richtlinie ab. Im Fall von Q-Learning, das außerhalb der Richtlinien liegt, wird die optimale Richtlinie unabhängig von der Richtlinie ermittelt, die während der Exploration verwendet wird. Dies gilt jedoch nur, wenn Sie die verschiedenen Status ausreichend oft besuchen. Sie können in der Originalarbeit von Watkins den tatsächlichen Beweis finden, der diese sehr schöne Eigenschaft von Q-Learning zeigt. Es gibt jedoch einen Kompromiss, und das ist, dass Methoden außerhalb der Politik langsamer sind als Methoden innerhalb der Politik. Hier ein Link zu einer anderen interessanten Zusammenfassung der Eigenschaften beider Arten von Methoden
quelle
quelle
Aus dem Sutton-Buch: "Der Ansatz für Richtlinien im vorhergehenden Abschnitt ist eigentlich ein Kompromiss - er lernt Aktionswerte nicht für die optimale Richtlinie, sondern für eine nahezu optimale Richtlinie, die noch untersucht wird. Ein einfacherer Ansatz besteht darin, zwei Richtlinien zu verwenden Eine, über die gelernt wird und die zur optimalen Richtlinie wird, und eine, die genauer untersucht und zum Generieren von Verhalten verwendet wird. Die Richtlinie, über die gelernt wird, wird als Zielrichtlinie bezeichnet, und die Richtlinie, die zum Generieren von Verhalten verwendet wird, wird als Verhaltensrichtlinie bezeichnet. In diesem Fall sagen wir, dass das Lernen aus Daten erfolgt, die der Zielrichtlinie entsprechen, und dass der Gesamtprozess als "Lernen ohne Richtlinien" bezeichnet wird. "
quelle