Ich verstehe, dass Sie beim Lernen von Schauspieler-Kritiker zum Lernen der Verstärkung einen "Schauspieler" haben, der über die zu treffenden Maßnahmen entscheidet, und einen "Kritiker", der diese Maßnahmen dann bewertet. Ich bin jedoch verwirrt darüber, was die Verlustfunktion tatsächlich aussagt mir.
In Sutton und Bartons Buch Seite 274 (292 des PDF) finden Sie hier http://ufal.mff.cuni.cz/~straka/courses/npfl114/2016/sutton-bookdraft2016sep.pdf
Sie beschreiben den Algorithmus.
Ich kann verstehen, dass Sie den Schauspieler aktualisieren möchten, indem Sie Informationen über den Statuswert (vom Kritiker festgelegt) einbeziehen. Dies geschieht durch den Wert von der diese Informationen enthält, aber ich verstehe nicht ganz, warum der Gradient der Zustandswertfunktion betrachtet wird.
Sollte ich nicht den Gradienten einer objektiven Funktion betrachten, die ich minimieren möchte? Zu Beginn des Kapitels stellt er fest, dass wir die Leistung der Richtlinie einfach als ihre Wertfunktion betrachten können. In diesem Fall passen wir nur die Parameter in die Richtung an, die den Wert jedes Zustands maximiert? Ich dachte, dass dies durch Anpassung der Politik geschehen sollte, nicht durch Änderung der Bewertung eines Staates.
Vielen Dank
quelle
Antworten:
Lassen Sie uns zunächst versuchen, ein solides Verständnis dafür aufzubauen, was bedeutet. Vielleicht wissen Sie das alles, aber meiner Meinung nach ist es trotzdem gut, darüber nachzudenken.δ
Beginnen wir mit dem Begriff . Dieser Term ist der Wert des Zustands , wie er vom Kritiker unter der aktuellen Parametrisierung geschätzt wird . Dieser Zustandswert ist im Wesentlichen die abgezinste Summe aller Belohnungen, die wir ab diesem Zeitpunkt erwarten.v^(S,w) S w
Also, ist der Unterschied zwischen zwei verschiedenen Arten von Schätzen genau den gleichen Wert, mit einem Teil (links von der Minus) erwartet wird , um eine etwas zuverlässige Schätzung zu sein , weil es auf einem kleines basierte mehr Informationen Bit , das bekannt ist , korrekt zu sein ( ).δ R
Ja, dies sollte getan werden, und genau das wird in der folgenden Zeile getan:
Dies ist jedoch nicht das einzige, was wir aktualisieren möchten.
Wir wollen das AUCH tun, weil der Kritiker den Zustandswert immer so gut wie möglich einschätzen soll. Wenn ungleich Null ist, bedeutet dies, dass wir einen Fehler im Kritiker gemacht haben. Daher möchten wir den Kritiker auch aktualisieren, um genauer zu werden.δ
quelle