In welchem Verhältnis stehen Q-Learning-Methoden und Methoden mit politischen Verläufen?
Nach meinem Verständnis sind Q-Learning und Policy Gradients (PG) die beiden wichtigsten Ansätze zur Lösung von RL-Problemen. Während Q-Learning darauf abzielt, die Belohnung einer bestimmten Maßnahme in einem bestimmten Zustand vorherzusagen, prognostizieren Gradienten der Politik die Maßnahme...