Nachdem ich die Erfolge von Google Deepmind in Ataris Spielen gelesen habe , versuche ich, das Q-Learning und die Q-Netzwerke zu verstehen, aber ich bin ein bisschen verwirrt. Die Verwirrung entsteht im Konzept des Abzinsungsfaktors. Kurze Zusammenfassung dessen, was ich verstehe. Ein tiefes Faltungs-Neuronales Netzwerk wird verwendet, um den Wert des optimalen erwarteten Werts einer Aktion zu schätzen. Das Netzwerk hat die Verlustfunktion zu minimieren wobei E s ' [ y | s , a ] ist E [ r + & ggr; m a x a ' Q ( s ' , a ' ; & thgr ; - i ) | s,a] WobeiQein kumulativer Bewertungswert ist undrder Bewertungswert für die ausgewählte Aktion ist. s,aund s
Aus mathematischer Sicht ist der Abzinsungsfaktor und repräsentiert die Wahrscheinlichkeit, den Zustand s ' aus dem Zustand s zu erreichen .