Die Bedeutung des Rabattfaktors für das verstärkte Lernen

Nachdem ich die Erfolge von Google Deepmind in Ataris Spielen gelesen habe , versuche ich, das Q-Learning und die Q-Netzwerke zu verstehen, aber ich bin ein bisschen verwirrt. Die Verwirrung entsteht im Konzept des Abzinsungsfaktors. Kurze Zusammenfassung dessen, was ich verstehe. Ein tiefes Faltungs-Neuronales Netzwerk wird verwendet, um den Wert des optimalen erwarteten Werts einer Aktion zu schätzen. Das Netzwerk hat die Verlustfunktion zu minimieren wobei ist Wobeiein kumulativer Bewertungswert ist undder Bewertungswert für die ausgewählte Aktion ist. und

L_{i} = E_{s, a, r} [(E_{s^{'}} [y | s, a] - Q (s, a; θ_{i}))^{2}]

$L_i=\mathbb{E}_{s,a,r}\left[(\mathbb{E}_{s'}\left[y|s,a\right]-Q(s,a;\theta_i))^2\right]$

E_{s^{'}} [y | s, a]

$\mathbb{E}_{s'}\left[y|s,a\right]$

E [r + γ m a x_{a^{'}} Q (s^{'}, a^{'}; θ_{i}^{-}) | s, a]

$\mathbb{E}\left[r+\gamma max_{a'} Q(s',a';\theta^-_i)\right|s,a]$

Q

$Q$

r

$r$

s, a

$s,a$

sind jeweils der Zustand und die Aktion wählen zum Zeitpunkt

und der Zustand und die Aktion zum Zeitpunkt

. Die

sind die Gewichte des Netzwerks bei der vorherigen Iteration. Das

ist ein Abzinsungsfaktor, der die zeitliche Differenz der Bewertungswerte berücksichtigt. DerIndex

ist der zeitliche Schritt. Das Problem hierbei ist zu verstehen, warum

nicht von

abhängt.

s^{'}, a^{'}

$s',a'$

t

$t$

t^{'}

$t'$

θ_{i}^{-}

$\theta^-_i$

γ

$\gamma$

i

$i$

γ

$\gamma$

θ

$\theta$

Aus mathematischer Sicht ist der Abzinsungsfaktor und repräsentiert die Wahrscheinlichkeit, den Zustand aus dem Zustand . $\gamma$ $s'$ $s$

$Q$ $\gamma$ $\gamma=1$

artificial-intelligence neural-networks reinforcement-learning emanuele
quelle

Die Bedeutung des Rabattfaktors für das verstärkte Lernen

Antworten: