Wann werden Monte-Carlo-Methoden gegenüber zeitlichen Differenzmethoden bevorzugt?
Ich habe in letzter Zeit viel über Reinforcement Learning geforscht. Ich folgte Sutton & Bartos Reinforcement Learning: Eine Einführung für das meiste davon. Ich weiß, was Markov-Entscheidungsprozesse sind und wie das Lernen mit dynamischer Programmierung (DP), Monte Carlo und zeitlichem...