Kennt jemand ein Beispiel für einen Algorithmus, den Williams in Artikel "Eine Klasse von Gradientenschätzungsalgorithmen für das Verstärkungslernen in neuronalen Netzen" vorgeschlagen hat ? Http://incompleteideas.net/sutton/williams-92.pdf
reinforcement-learning
Alex Gao
quelle
quelle
Antworten:
für t = 1 bis T - 1 tun
Ende für
Ende für
Dieser Algorithmus weist eine hohe Varianz auf, da die Stichprobenbelohnungen von Episode zu Episode sehr unterschiedlich sein können. Daher wird dieser Algorithmus normalerweise mit einer von der Richtlinie abgezogenen Basislinie verwendet. Hier finden Sie eine ausführlichere Erklärung mit Codebeispielen.
quelle
Der REINFORCE-Algorithmus für das Lernen zur Verstärkung von Richtliniengradienten ist ein einfacher stochastischer Gradientenalgorithmus. Es funktioniert gut, wenn die Episoden relativ kurz sind, sodass viele Episoden simuliert werden können. Wert-Funktions-Methoden eignen sich besser für längere Episoden, da sie vor dem Ende einer einzelnen Episode mit dem Lernen beginnen können.
quelle