Warum wird der Abzinsungssatz im REINFORCE-Algorithmus zweimal angezeigt?
Ich las das Buch Reinforcement Learning: Eine Einführung von Richard S. Sutton und Andrew G. Barto (vollständiger Entwurf, 5. November 2017). Auf Seite 291 wird der Pseudocode für die episodische Monte-Carlo-Policy-Gradient-Methode vorgestellt. Wenn ich mir diesen Pseudocode anschaue, kann ich...