Nach meinem Verständnis sind Q-Learning und Policy Gradients (PG) die beiden wichtigsten Ansätze zur Lösung von RL-Problemen. Während Q-Learning darauf abzielt, die Belohnung einer bestimmten Maßnahme in einem bestimmten Zustand vorherzusagen, prognostizieren Gradienten der Politik die Maßnahme...
20
In welchem Verhältnis stehen Q-Learning-Methoden und Methoden mit politischen Verläufen?