Aus irgendeinem Grund wird AlphaGo Zero trotz seiner unglaublichen Ergebnisse nicht so bekannt wie das ursprüngliche AlphaGo. Von Grund auf neu, hat es AlphaGo Master bereits geschlagen und zahlreiche andere Benchmarks bestanden. Noch unglaublicher ist, dass dies in 40 Tagen erledigt ist. Google nennt es "wohl den besten Go-Spieler der Welt" .
DeepMind behauptet, dies sei eine "neuartige Form des verstärkenden Lernens" - ist diese Technik wirklich neuartig? Oder gab es andere Zeiten, in denen diese Technik angewendet wurde - und wenn ja, was waren ihre Ergebnisse? Ich denke, die Anforderungen, über die ich spreche, sind 1) kein menschliches Eingreifen und 2) kein historisches Spiel, aber diese sind flexibel.
Dies scheint eine ähnliche Frage zu sein, aber alle Antworten scheinen von der Annahme auszugehen, dass AlphaGo Zero das erste seiner Art ist.
quelle
Antworten:
Der AlphaGo Zero- Artikel aus der Natur , "Das Spiel ohne menschliches Wissen meistern", behauptet vier Hauptunterschiede zur früheren Version:
Die Punkte (1) und (2) sind nicht neu im Reinforcement-Lernen, verbessern jedoch die vorherige AlphaGo- Software, wie in den Kommentaren zu Ihrer Frage angegeben. Es bedeutet nur, dass sie jetzt reines Reinforcement Learning verwenden, beginnend mit zufällig initialisierten Gewichten. Dies wird durch bessere, schnellere Lernalgorithmen ermöglicht.
Ihre Behauptung lautet hier: "Unser Hauptbeitrag besteht darin, zu zeigen, dass übermenschliche Leistung ohne Wissen über den menschlichen Bereich erreicht werden kann." (S. 22).
Die Punkte (3) und (4) sind insofern neu, als ihr Algorithmus einfacher und allgemeiner ist als ihr vorheriger Ansatz. Sie erwähnen auch, dass dies eine Verbesserung gegenüber früheren Arbeiten von Guo et al.
Durch die Vereinheitlichung des Richtlinien- / Wertnetzwerks (3) können sie eine effizientere Variante der Monte-Carlo-Baumsuche implementieren, um nach guten Bewegungen zu suchen, und gleichzeitig den Suchbaum verwenden, um das Netzwerk schneller zu trainieren (4). Das ist sehr mächtig.
Darüber hinaus beschreiben sie eine Reihe interessanter Implementierungsdetails wie das Stapeln und Wiederverwenden von Datenstrukturen, um die Suche nach neuen Zügen zu optimieren.
Der Effekt ist, dass es weniger Rechenleistung benötigt und auf 4 TPUs anstatt auf 176 GPUs und 48 TPUs für frühere Versionen ihrer Software ausgeführt wird.
Dies macht es definitiv "neuartig" im Kontext von Go-Software. Ich glaube, dass (3) und (4) in einem breiteren Kontext auch "neuartig" sind und in anderen Bereichen des Reinforcement Learning wie z . B. Robotik anwendbar sein werden .
quelle