Unterschied zwischen dynamischer Programmierung und zeitlichem Differenzlernen beim Bestärkungslernen

Was ist beim verstärkten Lernen der Unterschied zwischen dynamischer Programmierung und zeitlichem Differenzlernen?

reinforcement-learning tdc
quelle

Antworten:

DP löst durch Rekursion die optimale Richtlinien- oder Wertefunktion. Es erfordert Kenntnisse des Markov-Entscheidungsprozesses (MDP) oder eines Modells der Welt, damit die Rekursionen durchgeführt werden können. Es wird in der Regel eher unter "Planen" als unter "Lernen" zusammengefasst, da Sie das MDP bereits kennen und nur herausfinden müssen, was (optimal) zu tun ist.

TD ist modellfrei: Es erfordert keine Kenntnis eines Modells der Welt. Es ist iterativ und simulationsbasiert und lernt durch Bootstrapping, dh der Wert eines Zustands oder einer Aktion wird unter Verwendung der Werte anderer Zustände oder Aktionen geschätzt.

Weitere Informationen finden Sie unter:

http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html

quelle