Was ist der Unterschied zwischen Episode und Epoche beim Deep-Q-Lernen?

14

Ich versuche die berühmte Zeitung "Atari spielen mit Deep Reinforcement Learning" ( pdf ) zu verstehen . Mir ist der Unterschied zwischen einer Epoche und einer Episode unklar . In Algorithmus befindet sich die äußere Schleife über Episoden , während in Abbildung 2 die x-Achse als Epoche bezeichnet ist . Im Zusammenhang mit dem verstärkten Lernen ist mir nicht klar, was eine Epoche bedeutet. Ist eine Epoche eine äußere Schleife um die Episodenschleife? 12

Geben Sie hier die Bildbeschreibung ein

Geben Sie hier die Bildbeschreibung ein

ANZEIGE
quelle
1
Also ... wie viele Episoden machen eine Epoche aus?
Lewen

Antworten:

9
  • Eine Episode = eine Folge von Zuständen, Aktionen und Belohnungen, die mit dem Endzustand endet. Zum Beispiel kann das Spielen eines ganzen Spiels als eine Episode betrachtet werden, wobei der Endzustand erreicht wird, wenn ein Spieler verliert / gewinnt / zieht. Manchmal kann man es vorziehen, eine Episode als mehrere Spiele zu definieren ( Beispiel : "Jede Episode besteht aus ein paar Dutzend Spielen, da die Spiele für jeden Spieler eine Punktzahl von 21 erreichen").
  • Eine Epoche = ein Vorwärtsdurchlauf und ein Rückwärtsdurchlauf aller Trainingsbeispiele in der Terminologie des neuronalen Netzwerks.

In dem von Ihnen erwähnten Artikel scheinen sie hinsichtlich der Bedeutung der Epoche flexibler zu sein, da sie nur eine Epoche als eine bestimmte Anzahl von Gewichtsaktualisierungen definieren. Sie können daher eine Epoche als äußere Schleife um die Episodenschleife betrachten, wie Sie in der Frage erwähnt haben.

Franck Dernoncourt
quelle