Reinforcement Learning: Eine Einführung. Zweite Auflage, in Bearbeitung . Richard S. Sutton und Andrew G. Barto (c) 2012, S. 67-68. Das Lösen einer Bestärkungslernaufgabe bedeutet ungefähr, eine Politik zu finden, die auf lange Sicht eine Menge Belohnung bringt. Für endliche MDPs können wir eine...