Was ist die Rollout-Richtlinie in AlphaGos Artikel?

11

Das Papier ist hier .

Die Rollout-Richtlinie ... ist eine lineare Softmax-Richtlinie, die auf schnellen, inkrementell berechneten, lokalen musterbasierten Funktionen basiert.

Ich verstehe nicht, was eine Rollout-Richtlinie ist und wie sie sich auf das Richtliniennetzwerk für die Auswahl eines Umzugs bezieht. Eine einfachere Erklärung?

Hallo Welt
quelle
Die Zeitung scheint hinter einer Paywall zu sein ...
Vladislavs Dovgalecs
@xeon Ich kann das nicht ändern. Ich habe vollen Zugriff auf das Papier, kann es aber hier nicht hochladen (Urheberrechtsgesetze). Vielleicht googeln, wenn jemand anderes eine Kopie hat?
HelloWorld

Antworten:

11

Es scheint, dass das Richtliniennetzwerk eine Wahrscheinlichkeitsverteilung über die möglichen Bewegungen im Spielzustand . Wenn das Programm den Spielbaum durchsucht, geschieht dies auf zufällige Weise, und bestimmt, wie diese Suche durchgeführt wird. Die Hoffnung ist, dass diese Funktion das Programm zu guten Zügen "führt", die ein starker Spieler wahrscheinlich machen wird. Dies ist sinnvoll, da beim Durchsuchen des Spielbaums die Zweige, die mit Fehlern beginnen, bei der Bewertung der aktuellen Brettposition gegen einen intelligenten Gegner weniger relevant sind.p(eins)einsp

Wenn sie sagen, dass die Rollout-Richtlinie (ich glaube, sie haben den Begriff "Rollout" von Backgammon übernommen) eine lineare Softmax-Funktion ist, beziehen sie sich auf eine Verallgemeinerung der in der logistischen Regression verwendeten Sigmoid-Funktion. Diese Funktion hat die Form

eβichT.xj=1keβjT.x

Dabei ist ein Vektor, der eine Funktion der aktuellen Board-Position ist (laut Artikel wird der lineare Softmax nur im letzten Schritt des Richtliniennetzwerks verwendet), und ist ein Vektor von Gewichten, die zusammen die Wahrscheinlichkeit bestimmen, dass die Richtlinie Netzwerk wählt Aktion .xβicheinich

dsaxton
quelle