Wie genau wird die Deep Q-Learning Loss-Funktion berechnet?

Ich habe Zweifel, wie genau die Verlustfunktion eines Deep Q-Learning-Netzwerks trainiert wird. Ich verwende ein 2-Schicht-Feedforward-Netzwerk mit linearer Ausgangsschicht und relu versteckten Schichten.

Nehmen wir an, ich habe 4 mögliche Aktionen. Somit ist der Ausgang von dem Netzwerk für den aktuellen Zustand ist . Um es konkreter zu machen, nehmen wir an, dass $s_t$ $Q(s_t) \in \mathbb{R}^4$ $Q(s_t) = [1.3, 0.4, 4.3, 1.5]$
Jetzt nehme ich die Aktion $a_t = 2$ entsprechend dem Wert $4.3$ dh die 3. Aktion, und erreiche einen neuen Zustand $s_{t+1}$ .
Als nächstes berechne ich den Vorwärtsdurchlauf mit dem Zustand $s_{t+1}$ und nehme an, ich erhalte die folgenden Werte auf der Ausgangsschicht $Q(s_{t+1}) = [9.1, 2.4, 0.1, 0.3]$ . wir auch an, die Belohnung $r_t = 2$ und $\gamma = 1.0$ .
Ist der Verlust gegeben durch:

$\mathcal{L} = (11.1- 4.3)^2$

ODER

$\mathcal{L} = \frac{1}{4}\sum_{i=0}^3 ([11.1, 11.1, 11.1, 11.1] - [1.3, 0.4, 4.3, 1.5])^2$

ODER

$\mathcal{L} = \frac{1}{4}\sum_{i=0}^3 ([11.1, 4.4, 2.1, 2.3] - [1.3, 0.4, 4.3, 1.5])^2$

Vielen Dank, tut mir leid, dass ich das sehr einfach aufschreiben musste ... Ich bin durch die ganze Notation verwirrt. (Ich denke, die richtige Antwort ist die zweite ...)

least-squares deep-learning loss-functions reinforcement-learning q-learning ANZEIGE
quelle

Diese Frage mit dem klaren Beispiel hat mich dazu gebracht, Deep Q Learning besser zu verstehen als jeder andere mittlere Artikel, den ich in der letzten Woche gelesen habe.

Dhruvm

Antworten:

Nachdem Sie die Gleichungen noch einige Male überprüft haben. Ich denke, der richtige Verlust ist der folgende:

L = (11.1 - 4.3)^{2}

$\mathcal{L} = (11.1 - 4.3)^2$

Meine Argumentation ist, dass die Q-Learning-Aktualisierungsregel für den allgemeinen Fall nur den Q-Wert für ein bestimmtes aktualisiert . $state,action$

Q (s, a) = r + γ max_{a *} Q (s^{'}, a *)

$Q(s,a) = r + \gamma \max_{a*}Q(s',a*)$

Diese Gleichung bedeutet, dass die Aktualisierung nur für einen bestimmten ein bestimmtes und für das neuronale Q-Netzwerk erfolgt. Dies bedeutet, dass der Verlust nur für eine bestimmte Ausgabeeinheit berechnet wird, die einer bestimmten . $state,action$ $action$

In dem angegebenen Beispiel ist und das ist . $Q(s,a) = 4.3$ $target$ $r + \gamma \max_{a*}Q(s',a*) = 11.1$

ANZEIGE
quelle