In DeepMinds Artikel über Deep Q-Learning für Atari-Videospiele ( hier ) verwenden sie eine Epsilon-gierige Methode zur Erkundung während des Trainings. Dies bedeutet, dass bei Auswahl einer Aktion im Training diese entweder als Aktion mit dem höchsten q-Wert oder als zufällige Aktion ausgewählt...