Es scheint mir, dass die Funktion leicht durch die Funktion ausgedrückt werden kann und daher die Funktion für mich überflüssig zu sein scheint. Allerdings lerne ich noch nicht viel, also habe ich wohl etwas falsch gemacht.
Definitionen
Q- und V-Learning stehen im Kontext von Markov-Entscheidungsprozessen . Ein MDP ist ein 5-Tupel mit
- ist eine Menge von Zuständen (typischerweise endlich)
- ist eine Menge von Aktionen (typischerweise endlich)
- ist die Wahrscheinlichkeit , mit der Aktion a von Zustand zu Zustand zu gelangen.
- ist die unmittelbare Belohnung nach dem Übergang von Zustand zu Zustand mit Aktion . (Es scheint mir, dass normalerweise nur zählt).
- heißt Rabattfaktor und bestimmt, ob man sich auf unmittelbare Belohnungen ( ), die Gesamtbelohnung ( ) oder einen Kompromiss konzentriert.
Eine Politik nach Reinforcement Learning: Eine Einführung von Sutton und Barto ist eine Funktion (dies könnte probabilistisch sein).
Laut Mario Martins Dias , die - Funktion ist
Meine Gedanken
Die Funktion gibt an, wie hoch der erwartete Gesamtwert (nicht die Belohnung!) Eines Zustands s unter der Richtlinie π ist.
Die Funktion gibt den Wert eines Zustands s und einer Aktion a unter der Richtlinie π an .
Das heißt,
Recht? Warum haben wir überhaupt die Wertfunktion? (Ich glaube, ich habe etwas verwechselt)
quelle
Sie haben es richtig gemacht, dieV Funktion gibt Ihnen den Wert eines Zustands und Q gibt Ihnen den Wert einer Aktion in einem Zustand (gemäß einer gegebenen Richtlinie π ). Die klarste Erklärung für Q-Learning und seine Funktionsweise fand ich in Tom Mitchells Buch "Machine Learning" (1997), Kap. 13, die heruntergeladen werden kann. V ist definiert als die Summe einer unendlichen Reihe, aber es ist hier nicht wichtig. Was zählt, ist das Q Funktion definiert als
Dies mag zunächst als merkwürdige Rekursion erscheinen, da sie den Q-Wert einer Aktion im aktuellen Status als den besten Q-Wert eines Nachfolgezustands ausdrückt , aber es ist sinnvoll, wenn Sie sich ansehen, wie der Sicherungsprozess ihn verwendet: Die Erkundung Der Prozess stoppt, wenn er einen Zielstatus erreicht und die Belohnung sammelt, die zum Q-Wert des endgültigen Übergangs wird. Wenn nun in einer nachfolgenden Trainingsepisode der Erkundungsprozess diesen Vorgängerstatus erreicht, verwendet der Sicherungsprozess die obige Gleichheit, um den aktuellen Q-Wert des Vorgängerstatus zu aktualisieren. Das nächste Mal seineDer Vorgänger wird daraufhin besucht, dass der Q-Wert des Status aktualisiert wird, und so weiter. (Mitchells Buch beschreibt eine effizientere Methode, indem alle Berechnungen gespeichert und später wiedergegeben werden.) Vorausgesetzt, jeder Zustand wird unendlich oft besucht, berechnet dieser Prozess schließlich das optimale Q
Manchmal wird eine Lernrateα angewendet, um zu steuern, wie viel Q tatsächlich aktualisiert wird:
Q(s,a)=(1−α)Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′))
=Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′)−Q(s,a))
Hinweis jetztdass das Update auf den QWertnichtauf dem aktuellen QWert ab. In Mitchells Buch wird auch erklärt, warum dies so ist und warum Sieα benötigen: es ist für stochastische MDPs. Ohneα jedes Mal, wenn ein Zustand-Aktionspaar versucht wurde, eine andere Belohnung geben, so dass die Q ^ -Funktion überall abprallt und nicht konvergiert. α ist da so, dass da das neue wissen nur zum teil akzeptiert wird. Anfänglich wird α hoch eingestellt, damit die aktuellen (meist zufälligen) Werte von Q weniger einflussreich sind. α wird mit fortschreitendem Training verringert, so dass neue Aktualisierungen immer weniger Einfluss haben und das Q-Lernen jetzt konvergiert
quelle
Hier ist eine detailliertere Erklärung der Beziehung zwischen Zustandswert und Aktionswert in Aarons Antwort. Betrachten wir zunächst die Definitionen der Wertfunktion und der Aktionswertfunktion unter der Richtlinieπ :
vπ(s)=E[Gt|St=s]qπ(s,a)=E[Gt|St=s,At=a]
wobeiGt=∑∞k=0γkRt+k+1 ist die Rückkehr zum Zeitpunktt . Die Beziehung zwischen diesen beiden Wertfunktionen kann als
vπ(s)=E[Gt|St=s]=∑gtp(gt|St=s)gt=∑gt∑ap(gt,a|St=s)gt=∑ap(a|St=s)∑gtp(gt|St=s,At=a)gt=∑ap(a|St=s)E[Gt|St=s,At=a]=∑ap(a|St=s)qπ(s,a)
Die obige Gleichung ist wichtig. Es beschreibt die Beziehung zwischen zwei grundlegenden Wertefunktionen beim Bestärkungslernen. Es gilt für jede Police. Wenn wir darüber hinaus einedeterministischePolitik haben, istvπ(s)=qπ(s,π(s)) . Hoffe das ist hilfreich für dich. (um mehr über die Bellman - Optimalitätsgleichung zu erfahrenhttps://stats.stackexchange.com/questions/347268/proof-of-bellman-optimality-equation/370198#370198 )
quelle
Die Wertfunktion ist eine abstrakte Formulierung des Nutzens. Und die Q-Funktion wird für den Q-Lernalgorithmus verwendet.
quelle