Hat DeepMinds DQN Atari-Spiel gleichzeitig gelernt?

9

DeepMind gab an, dass sein Deep Q-Network (DQN) sein Verhalten kontinuierlich anpassen konnte, während es lernte, 49 Atari-Spiele zu spielen.

Nachdem der Agent alle Spiele mit demselben neuronalen Netz gelernt hatte, war er in der Lage, sie alle gleichzeitig auf "übermenschlichen" Ebenen zu spielen (wann immer es zufällig mit einem der Spiele präsentiert wurde) oder konnte es nur zu einem Spiel gleichzeitig gut sein, weil er wechselte Benötigen Sie ein Umlernen?

Dion
quelle
"Nach dem Lernen aller Spiele mit dem gleichen neuronalen Netz". Bedeutet dies dieselbe NN-Architektur ODER dieselbe Architektur und denselben Satz von Gewichten?
Ankur
@Ankur Eigentlich bin ich mir nicht sicher - es ist mein (begrenztes) Verständnis, dass sie dieselbe Architektur verwendet haben und die Gewichte zwischen den Spielen nicht zurückgesetzt haben.
Dion

Antworten:

2

Das Umschalten erforderte ein erneutes Lernen.

Auch beachten Sie, dass :

Wir verwenden für alle sieben Spiele die gleichen Einstellungen für Netzwerkarchitektur, Lernalgorithmus und Hyperparameter. Dies zeigt, dass unser Ansatz robust genug ist, um an einer Vielzahl von Spielen ohne spielspezifische Informationen zu arbeiten. Während wir unsere Agenten in Bezug auf die realen und unveränderten Spiele evaluierten, haben wir die Belohnungsstruktur der Spiele nur während des Trainings geändert.

und

Das Netzwerk hat in sechs der sieben Spiele, die wir versucht haben, alle bisherigen RL-Algorithmen übertroffen und in drei von ihnen einen erfahrenen menschlichen Spieler übertroffen.

Franck Dernoncourt
quelle
1

Das Wechseln erfordert ein Umlernen. Das Netzwerk verfügte nicht über einen einzigen Satz von Gewichten, mit denen alle Spiele gut gespielt werden konnten. Dies ist auf das katastrophale Problem des Vergessens zurückzuführen.

In jüngster Zeit wurden jedoch Arbeiten durchgeführt, um dieses Problem zu lösen:

"Überwindung des katastrophalen Vergessens in neuronalen Netzen", 2016

Papier: https://arxiv.org/pdf/1612.00796v1.pdf

Nix
quelle