Schauspieler-Kritiker-Verlustfunktion beim verstärkten Lernen

9

Ich verstehe, dass Sie beim Lernen von Schauspieler-Kritiker zum Lernen der Verstärkung einen "Schauspieler" haben, der über die zu treffenden Maßnahmen entscheidet, und einen "Kritiker", der diese Maßnahmen dann bewertet. Ich bin jedoch verwirrt darüber, was die Verlustfunktion tatsächlich aussagt mir.

In Sutton und Bartons Buch Seite 274 (292 des PDF) finden Sie hier http://ufal.mff.cuni.cz/~straka/courses/npfl114/2016/sutton-bookdraft2016sep.pdf

Sie beschreiben den Algorithmus.

Ich kann verstehen, dass Sie den Schauspieler aktualisieren möchten, indem Sie Informationen über den Statuswert (vom Kritiker festgelegt) einbeziehen. Dies geschieht durch den Wert von der diese Informationen enthält, aber ich verstehe nicht ganz, warum der Gradient der Zustandswertfunktion betrachtet wird.δ

Sollte ich nicht den Gradienten einer objektiven Funktion betrachten, die ich minimieren möchte? Zu Beginn des Kapitels stellt er fest, dass wir die Leistung der Richtlinie einfach als ihre Wertfunktion betrachten können. In diesem Fall passen wir nur die Parameter in die Richtung an, die den Wert jedes Zustands maximiert? Ich dachte, dass dies durch Anpassung der Politik geschehen sollte, nicht durch Änderung der Bewertung eines Staates.

Vielen Dank

Versuche zu lernen
quelle
Link ist tot. Bitte beheben Sie es oder laden Sie relevante Inhalte
hoch

Antworten:

7

Lassen Sie uns zunächst versuchen, ein solides Verständnis dafür aufzubauen, was bedeutet. Vielleicht wissen Sie das alles, aber meiner Meinung nach ist es trotzdem gut, darüber nachzudenken.δ

δR+γv^(S,w)v^(S,w)

Beginnen wir mit dem Begriff . Dieser Term ist der Wert des Zustands , wie er vom Kritiker unter der aktuellen Parametrisierung geschätzt wird . Dieser Zustandswert ist im Wesentlichen die abgezinste Summe aller Belohnungen, die wir ab diesem Zeitpunkt erwarten.v^(S,w)Sw

v^(S,w) hat eine sehr ähnliche Bedeutung, mit dem einzigen Unterschied, dass es der Wert für den nächsten Zustand anstelle des vorherigen Zustands . Wenn wir dies durch Multiplikation mit diskontieren und die beobachtete Belohnung dazu addieren , erhalten wir den Teil der rechten Seite der Gleichung vor dem Minus: . Dies hat im Wesentlichen die gleiche Bedeutung wie (es ist eine Schätzung des Wertes des vorherigen Zustands ), diesmal basiert es jedoch auf einigen neu beobachteten Informationen (SSγRR+γv^(S,w)v^(S,w)SR) und eine Schätzung des Wertes des nächsten Zustands, anstatt nur eine Schätzung eines Zustands in seiner Gesamtheit zu sein.

Also, ist der Unterschied zwischen zwei verschiedenen Arten von Schätzen genau den gleichen Wert, mit einem Teil (links von der Minus) erwartet wird , um eine etwas zuverlässige Schätzung zu sein , weil es auf einem kleines basierte mehr Informationen Bit , das bekannt ist , korrekt zu sein ( ).δR

δ ist positiv, wenn der Übergang von zu eine größere Belohnung ergab als der erwartete Kritiker, und negativ, wenn er kleiner als der erwartete Kritiker war (basierend auf der aktuellen Parametrisierung ).SSRw


Sollte ich nicht den Gradienten einer objektiven Funktion betrachten, die ich minimieren möchte? Zu Beginn des Kapitels stellt er fest, dass wir die Leistung der Richtlinie einfach als ihre Wertfunktion betrachten können. In diesem Fall passen wir nur die Parameter in die Richtung an, die den Wert jedes Zustands maximiert? Ich dachte, dass dies durch Anpassung der Politik geschehen sollte, nicht durch Änderung der Bewertung eines Staates.

Ja, dies sollte getan werden, und genau das wird in der folgenden Zeile getan:

θθ+αIδθlogπ(AS,θ)

Dies ist jedoch nicht das einzige, was wir aktualisieren möchten.

Ich kann verstehen, dass Sie den Schauspieler aktualisieren möchten, indem Sie Informationen über den Statuswert (vom Kritiker festgelegt) einbeziehen. Dies geschieht durch den Wert von δ, der diese Informationen enthält, aber ich verstehe nicht ganz, warum es sich um den Gradienten der Zustandswertfunktion handelt?

Wir wollen das AUCH tun, weil der Kritiker den Zustandswert immer so gut wie möglich einschätzen soll. Wenn ungleich Null ist, bedeutet dies, dass wir einen Fehler im Kritiker gemacht haben. Daher möchten wir den Kritiker auch aktualisieren, um genauer zu werden.δ

Dennis Soemers
quelle
1
Richtig, das Kritiker-Update hat also nicht wirklich mit der Anpassung zu tun, um den "höchsten" Wert pro Status zu erhalten, sondern es wird angepasst, um die bestmögliche Schätzung zu erhalten, und dabei ist es der beste "Kritiker" für das Modell. Danke, dass du das so deutlich gemacht hast! Der Schlüssel war mein Missverständnis von wie Sie erklärt haben. δ
versuchen,