Wie genau wird die Deep Q-Learning Loss-Funktion berechnet?

10

Ich habe Zweifel, wie genau die Verlustfunktion eines Deep Q-Learning-Netzwerks trainiert wird. Ich verwende ein 2-Schicht-Feedforward-Netzwerk mit linearer Ausgangsschicht und relu versteckten Schichten.

  1. Nehmen wir an, ich habe 4 mögliche Aktionen. Somit ist der Ausgang von dem Netzwerk für den aktuellen Zustand ist . Um es konkreter zu machen, nehmen wir an, dassstQ(st)R4Q(st)=[1.3,0.4,4.3,1.5]
  2. Jetzt nehme ich die Aktion at=2 entsprechend dem Wert 4.3 dh die 3. Aktion, und erreiche einen neuen Zustand st+1 .
  3. Als nächstes berechne ich den Vorwärtsdurchlauf mit dem Zustand st+1 und nehme an, ich erhalte die folgenden Werte auf der Ausgangsschicht Q(st+1)=[9.1,2.4,0.1,0.3] . Nehmen wir auch an, die Belohnung r_t = 2rt=2 und γ=1.0 .
  4. Ist der Verlust gegeben durch:

    L=(11.14.3)2

    ODER

    L=14i=03([11.1,11.1,11.1,11.1][1.3,0.4,4.3,1.5])2

    ODER

    L=14i=03([11.1,4.4,2.1,2.3][1.3,0.4,4.3,1.5])2

Vielen Dank, tut mir leid, dass ich das sehr einfach aufschreiben musste ... Ich bin durch die ganze Notation verwirrt. (Ich denke, die richtige Antwort ist die zweite ...)

ANZEIGE
quelle
1
Diese Frage mit dem klaren Beispiel hat mich dazu gebracht, Deep Q Learning besser zu verstehen als jeder andere mittlere Artikel, den ich in der letzten Woche gelesen habe.
Dhruvm

Antworten:

5

Nachdem Sie die Gleichungen noch einige Male überprüft haben. Ich denke, der richtige Verlust ist der folgende:

L=(11.14.3)2

Meine Argumentation ist, dass die Q-Learning-Aktualisierungsregel für den allgemeinen Fall nur den Q-Wert für ein bestimmtes aktualisiert .state,action

Q(s,a)=r+γmaxaQ(s,a)

Diese Gleichung bedeutet, dass die Aktualisierung nur für einen bestimmten ein bestimmtes und für das neuronale Q-Netzwerk erfolgt. Dies bedeutet, dass der Verlust nur für eine bestimmte Ausgabeeinheit berechnet wird, die einer bestimmten .state,actionaction

In dem angegebenen Beispiel ist und das ist .Q(s,a)=4.3targetr+γmaxaQ(s,a)=11.1

ANZEIGE
quelle