Ich versuche, Verstärkungslernen und Markov-Entscheidungsprozesse (MDP) zu verstehen, wenn ein neuronales Netz als Funktionsnäherungswert verwendet wird. Ich habe Schwierigkeiten mit der Beziehung zwischen dem MDP, in dem die Umgebung auf probabilistische Weise untersucht wird, wie dies auf...