Ich versuche, Verstärkungslernen und Markov-Entscheidungsprozesse (MDP) zu verstehen, wenn ein neuronales Netz als Funktionsnäherungswert verwendet wird.
Ich habe Schwierigkeiten mit der Beziehung zwischen dem MDP, in dem die Umgebung auf probabilistische Weise untersucht wird, wie dies auf Lernparameter zurückgeführt wird und wie die endgültige Lösung / Richtlinien gefunden werden.
Kann ich zu Recht davon ausgehen, dass beim neuronalen Lernen das neuronale Netzwerk im Wesentlichen so viele Schritte in der Zukunft als Funktionsapproximator für den q-Wert selbst fungiert? Wie ordnet sich dies der Aktualisierung von Parametern über Backpropagation oder andere Methoden zu?
Wenn das Netzwerk gelernt hat, die zukünftige Belohnung vorherzusagen, wie passt dies dann zum System, um tatsächlich Entscheidungen zu treffen? Ich gehe davon aus, dass das endgültige System wahrscheinlich keine Zustandsübergänge vornehmen würde.
Vielen Dank
quelle
Antworten:
In Q-Learning verwenden Sie bei jedem Schritt Beobachtungen und Belohnungen, um Ihre Q-Wert-Funktion zu aktualisieren:
Sie sagen zu Recht, dass das neuronale Netzwerk nur eine Funktionsnäherung für die q-Wert-Funktion ist.
Im Allgemeinen ist der Approximationsteil nur ein standardmäßiges überwachtes Lernproblem. Ihr Netzwerk verwendet (s, a) als Eingabe und die Ausgabe ist der q-Wert. Wenn die q-Werte angepasst werden, müssen Sie diese neuen Beispiele im Netzwerk trainieren. Dennoch werden Sie einige Probleme finden, wenn Sie korrelierte Stichproben verwenden und SGD darunter leiden wird.
Wenn Sie sich das DQN-Papier ansehen, sehen die Dinge etwas anders aus. In diesem Fall setzen sie Samples in einen Vektor (Erfahrungswiedergabe). Um das Netzwerk zu unterrichten, werden Tupel aus dem Vektor abgetastet und anhand dieser Informationen gebootet, um einen neuen q-Wert zu erhalten, der dem Netzwerk beigebracht wird. Wenn ich Lehren sage, meine ich das Anpassen der Netzwerkparameter mithilfe des stochastischen Gradientenabfalls oder Ihres bevorzugten Optimierungsansatzes. Indem Sie die Proben nicht in der Reihenfolge unterrichten, in der sie von der Richtlinie erfasst werden, dekorrelieren Sie sie und dies hilft beim Training.
Um eine Entscheidung über den Zustand zu treffen , wählen Sie schließlich die Aktion aus, die den höchsten q-Wert liefert:s
Wenn Ihre Q-Wert-Funktion vollständig gelernt wurde und die Umgebung stationär ist, ist es in Ordnung, an dieser Stelle gierig zu sein. Während des Lernens wird jedoch erwartet, dass Sie erkunden. Es gibt verschiedene Ansätze, die grau sind, eine der einfachsten und gebräuchlichsten Methoden.ε
quelle