Die Bedeutung des Rabattfaktors für das verstärkte Lernen

10

Nachdem ich die Erfolge von Google Deepmind in Ataris Spielen gelesen habe , versuche ich, das Q-Learning und die Q-Netzwerke zu verstehen, aber ich bin ein bisschen verwirrt. Die Verwirrung entsteht im Konzept des Abzinsungsfaktors. Kurze Zusammenfassung dessen, was ich verstehe. Ein tiefes Faltungs-Neuronales Netzwerk wird verwendet, um den Wert des optimalen erwarteten Werts einer Aktion zu schätzen. Das Netzwerk hat die Verlustfunktion zu minimieren wobei E s ' [ y | s , a ] ist E [ r + & ggr; m a x a ' Q ( s ' , a ' ; & thgr ; - i ) | s,a] WobeiQein kumulativer Bewertungswert ist undrder Bewertungswert für die ausgewählte Aktion ist. s,aund s

Li=Es,a,r[(Es[y|s,a]Q(s,a;θi))2]
Es[y|s,a]
E[r+γmaxaQ(s,a;θi)|s,a]
Qrs,a sind jeweils der Zustand und die Aktion wählen zum Zeitpunkt t und der Zustand und die Aktion zum Zeitpunkt t ' . Die θ - i sind die Gewichte des Netzwerks bei der vorherigen Iteration. Das γ ist ein Abzinsungsfaktor, der die zeitliche Differenz der Bewertungswerte berücksichtigt. DerIndex i ist der zeitliche Schritt. Das Problem hierbei ist zu verstehen, warum γ nicht von θ abhängt.s,attθiγiγθ

Aus mathematischer Sicht ist der Abzinsungsfaktor und repräsentiert die Wahrscheinlichkeit, den Zustand s ' aus dem Zustand s zu erreichen .γss

Qγγ=1

emanuele
quelle

Antworten:

6

ssp(s|s,a)γyssγ<1

Ich schlage vor, dass Sie das Sutton & Barto-Buch lesen, bevor Sie Deep-Q ausprobieren, um reines Reinforcement Learning außerhalb des Kontexts neuronaler Netze zu lernen, was Sie möglicherweise verwirren kann.

rcpinto
quelle
dc
Ev=i=1+γidc
d
dγ1γ=c
γgammaγ=ppt0γ1p1p=ττ