Als «policy-iteration» getaggte Fragen

Warum konvergiert der Richtlinieniterationsalgorithmus zur optimalen Richtlinien- und Wertfunktion?

Ich las Andrew Ngs Vorlesungsunterlagen über das Lernen der Verstärkung und versuchte zu verstehen, warum die Richtlinieniteration zur optimalen Wertfunktion und zur optimalen Richtlinie konvergierte .V.∗V.∗V^*π∗π∗\pi^* Die Iteration der Rückrufrichtlinie lautet: Initialisiere π nach dem...

reinforcement-learning policy-iteration