Ich habe schon seit einiger Zeit versucht, GAE zu meiner A2C-Implementierung hinzuzufügen , aber ich kann nicht ganz verstehen, wie es funktioniert.
Mein Verständnis davon ist, dass es die Varianz der Vorteilsschätzungsfunktion reduziert, indem die Vorteile basierend auf den Werten im Rollout "gemittelt" (oder verallgemeinert) werden.
Ich habe versucht, die Mathematik alleine durchzuarbeiten, und am Ende hatte ich nur einen Vorteil für den gesamten Rollout, stimmt das? Normalerweise haben wir einen Vorteil für jeden Zeitschritt im Rollout.
Kann jemand eine Erklärung zur Intuition von GAE geben?
quelle
Eine gute Erklärung für λ-return finden Sie in Lilian Wengs Blog: Kombination von TD- und MC-Lernen .
Der Generalized Advantage Estimator GAE (λ) verwendet einfach λ-return, um die Vorteilsfunktion zu schätzen.
quelle