Was ist der „neuartige Verstärkungslernalgorithmus“ in AlphaGo Zero?

10

Aus irgendeinem Grund wird AlphaGo Zero trotz seiner unglaublichen Ergebnisse nicht so bekannt wie das ursprüngliche AlphaGo. Von Grund auf neu, hat es AlphaGo Master bereits geschlagen und zahlreiche andere Benchmarks bestanden. Noch unglaublicher ist, dass dies in 40 Tagen erledigt ist. Google nennt es "wohl den besten Go-Spieler der Welt" .

DeepMind behauptet, dies sei eine "neuartige Form des verstärkenden Lernens" - ist diese Technik wirklich neuartig? Oder gab es andere Zeiten, in denen diese Technik angewendet wurde - und wenn ja, was waren ihre Ergebnisse? Ich denke, die Anforderungen, über die ich spreche, sind 1) kein menschliches Eingreifen und 2) kein historisches Spiel, aber diese sind flexibel.

Dies scheint eine ähnliche Frage zu sein, aber alle Antworten scheinen von der Annahme auszugehen, dass AlphaGo Zero das erste seiner Art ist.

Dubukay
quelle
Reinforcement Learning ist nicht neu. Welche Techniken behauptete Google, sie seien die ersten?
HelloWorld
Es gibt ein Zitat darüber auf der verlinkten Website, und in dem Artikel wird der Satz "Das neuronale Netzwerk in AlphaGo Zero wird aus Selbstspielspielen durch einen neuartigen Verstärkungslernalgorithmus trainiert."
Dubukay
1
Selbstspiel ist definitiv nicht neu. Es existierte vor Google. Es gibt Details in ihrem Algorithmus, die sie "neuartig" machen. Vielleicht kann jemand anderes antworten.
HelloWorld
2
Ich verstehe das - ich denke, ich versuche zu verstehen, was ihren Ansatz so unglaublich gut gemacht hat und ob wir das in anderen Bereichen erwarten sollten. Ist es eine neue Philosophie oder nur wirklich guter Code?
Dubukay
1
Ich habe hier eine Kopie des Papiers gefunden: nature.com/articles/… (enthält das Share Access Token, das aus dem Blog stammt, das es verlinkt, also ist es ein legitimes öffentliches Share AFAICS). Selbst nach dem Lesen der Beschreibung ist es schwierig, die tatsächliche Neuheit herauszufinden - alle einzelnen Ideen scheinen bereits vorhandene RL- / Spieltechniken zu sein, aber es kann nur eine bestimmte Kombination von ihnen sein, die neu ist
Neil Slater

Antworten:

6

Der AlphaGo Zero- Artikel aus der Natur , "Das Spiel ohne menschliches Wissen meistern", behauptet vier Hauptunterschiede zur früheren Version:

  1. Nur zum Selbstlernen (nicht für menschliche Spiele ausgebildet)
  2. Verwenden Sie nur das Brett und die Steine ​​als Eingabe (keine handgeschriebenen Merkmale).
  3. Verwenden eines einzelnen neuronalen Netzwerks für Richtlinien und Werte
  4. Ein neuer Baumsuchalgorithmus, der dieses kombinierte Richtlinien- / Wertnetzwerk verwendet, um zu bestimmen, wo nach guten Zügen gesucht werden soll.

Die Punkte (1) und (2) sind nicht neu im Reinforcement-Lernen, verbessern jedoch die vorherige AlphaGo- Software, wie in den Kommentaren zu Ihrer Frage angegeben. Es bedeutet nur, dass sie jetzt reines Reinforcement Learning verwenden, beginnend mit zufällig initialisierten Gewichten. Dies wird durch bessere, schnellere Lernalgorithmen ermöglicht.

Ihre Behauptung lautet hier: "Unser Hauptbeitrag besteht darin, zu zeigen, dass übermenschliche Leistung ohne Wissen über den menschlichen Bereich erreicht werden kann." (S. 22).

Die Punkte (3) und (4) sind insofern neu, als ihr Algorithmus einfacher und allgemeiner ist als ihr vorheriger Ansatz. Sie erwähnen auch, dass dies eine Verbesserung gegenüber früheren Arbeiten von Guo et al.

Durch die Vereinheitlichung des Richtlinien- / Wertnetzwerks (3) können sie eine effizientere Variante der Monte-Carlo-Baumsuche implementieren, um nach guten Bewegungen zu suchen, und gleichzeitig den Suchbaum verwenden, um das Netzwerk schneller zu trainieren (4). Das ist sehr mächtig.

Darüber hinaus beschreiben sie eine Reihe interessanter Implementierungsdetails wie das Stapeln und Wiederverwenden von Datenstrukturen, um die Suche nach neuen Zügen zu optimieren.

Der Effekt ist, dass es weniger Rechenleistung benötigt und auf 4 TPUs anstatt auf 176 GPUs und 48 TPUs für frühere Versionen ihrer Software ausgeführt wird.

Dies macht es definitiv "neuartig" im Kontext von Go-Software. Ich glaube, dass (3) und (4) in einem breiteren Kontext auch "neuartig" sind und in anderen Bereichen des Reinforcement Learning wie z . B. Robotik anwendbar sein werden .

mjul
quelle
Ich denke, (4) wird in David Silvers Vorlesungen - Vorlesung 10 über klassische Spiele - erwähnt. In vielen bestehenden Fällen wird das MCTS von der bereits ausgebildeten ML geleitet. Im Fall von AlphaGo Zero wird dies umgedreht und das Ergebnis des MCTS wird verwendet, um die Lernziele für die ML festzulegen. Was mich jedoch fragen lässt, ob es wirklich "neuartig" ist, ist die Möglichkeit, genau das zu tun, was in der Vorlesung erwähnt wird. . .
Neil Slater