Kürzlich Forscher bei Google Deepmind veröffentlichten ein Papier , in dem sie ein Go Spielsystem beschrieben, das die besten aktuellen Computerprogramme und die menschlichen Europameister schlagen.
Ich habe mir dieses Papier kurz angesehen und es scheint, dass es viele interessante Ideen aus früheren Papieren verwendet. Was haben sie anders gemacht, um diese spektakuläre Verbesserung zu erreichen?
reinforcement-learning
Valentas
quelle
quelle
Antworten:
Die vor AlphaGo bestehenden Programme basierten auf:
1) Convolutional Neural Networks (CNN), trainiert in einer Datenbank vorhandener Spiele.
ODER
2) Monte-Carlo-Baumsuche (MCTS)
AlphaGo basiert auf einer Kombination von:
A) Verstärkung des Lernens: Trainieren Sie Netzwerke, indem Sie Versionen von CNNs (siehe oben) gegeneinander spielen lassen.
UND
B) MCTS unter Verwendung von Bewegungen, die durch Schritt A) erzeugt wurden
Darüber hinaus wurde die Leistung durch die Verwendung von verteiltem Computing mit großen Mengen an CPUs und GPUs noch weiter verbessert.
Die Neuheit war also die Kombination der obigen Techniken A) und B).
quelle
Nichts in den von ihnen verwendeten Komponenten ist neu. Alle Ansätze wurden untersucht. Wenn Sie ihre Referenzen überprüfen, werden Sie feststellen, dass viele Forscher ähnliche Arbeiten ausführen. Die Neuheit war die Pipeline, der sie folgten, und die Kombination von modellfreien und modellbasierten Reinforcement Learning-Ansätzen. Ich werde versuchen, Ihnen eine nicht technisch andere Perspektive auf das zu geben, was sie aufgenommen haben.
Modellfreie Ansätze versuchen normalerweise, Funktionen wie Wertfunktionen (die darstellen, wie gut es ist, in einem bestimmten Zustand zu sein - Board-Konfiguration - in Bezug auf die zukünftige Belohnung) oder parametrisierte Richtlinienfunktionen (Wahrscheinlichkeiten für die Auswahl einer Aktion in einem bestimmten Zustand) zu approximieren Ihr Modell erhält eine Art " Intuition ", bei der Züge relativ gut sind - etwas Ähnliches wie die Intuition, die professionelle Go-Spieler haben, wenn sie erklären, dass sie einen Zug machen, weil er sich "gut anfühlt". Dies ist in der frühen Phase sehr wichtig des Spiels, wenn die Planung ineffizient zu verwenden ist.
Modellbasierte Ansätze versuchen, jede einzelne mögliche Flugbahn des Spiels in Form eines Entscheidungsbaums zu simulieren. Daher sind sie nützlich für die Planung (bevor Sie tatsächlich einen Zug im Spiel machen, überprüfen und bewerten Sie alle möglichen Eventualitäten und entscheiden dann, welchen Zug Sie von Ihrer aktuellen Position aus nehmen möchten). Das MCTS ist ein solcher Algorithmus, erstellt aus der aktuellen Brettposition einen Entscheidungsbaum über mögliche zukünftige Spielverläufe und bewertet diese Heuristiken nach bestimmten Kriterien. Die besten Algorithmen in Go basierten bisher auf diesem Algorithmus (und werden als RL-Algorithmus betrachtet).
In Bezug auf Neuheit mit wenigen Worten: Kombination von Planung und Intuition, dh Kombination des MCTS-Algorithmus mit Funktionsapproximatoren zur Bewertung der simulierten Spielverläufe. In diesem Fall verwendeten sie sehr tiefe Faltungs-Neuronale Netze für den Teil "Intuition". Darüber hinaus ist das gesamte Modell datengesteuert, da es zuerst in menschlichen Expertenbewegungen geschult wurde (dies könnte in Anwendungen in vielen anderen Bereichen außer dem Spielen nützlich sein). Wenn Sie jede einzelne Komponente untersuchen, gibt es nichts Neues ... aber der gesamte Prozess, um all diese Elemente effektiv zu kombinieren und in diesem komplexen Bereich die Meisterschaft zu erlangen, ist etwas Neues. Ich hoffe es hilft!
quelle