Das Papier ist hier .
Die Rollout-Richtlinie ... ist eine lineare Softmax-Richtlinie, die auf schnellen, inkrementell berechneten, lokalen musterbasierten Funktionen basiert.
Ich verstehe nicht, was eine Rollout-Richtlinie ist und wie sie sich auf das Richtliniennetzwerk für die Auswahl eines Umzugs bezieht. Eine einfachere Erklärung?
machine-learning
monte-carlo
reinforcement-learning
games
Hallo Welt
quelle
quelle
Antworten:
Es scheint, dass das Richtliniennetzwerk eine Wahrscheinlichkeitsverteilung über die möglichen Bewegungen im Spielzustand . Wenn das Programm den Spielbaum durchsucht, geschieht dies auf zufällige Weise, und bestimmt, wie diese Suche durchgeführt wird. Die Hoffnung ist, dass diese Funktion das Programm zu guten Zügen "führt", die ein starker Spieler wahrscheinlich machen wird. Dies ist sinnvoll, da beim Durchsuchen des Spielbaums die Zweige, die mit Fehlern beginnen, bei der Bewertung der aktuellen Brettposition gegen einen intelligenten Gegner weniger relevant sind.p ( a ∣ s ) ein s p
Wenn sie sagen, dass die Rollout-Richtlinie (ich glaube, sie haben den Begriff "Rollout" von Backgammon übernommen) eine lineare Softmax-Funktion ist, beziehen sie sich auf eine Verallgemeinerung der in der logistischen Regression verwendeten Sigmoid-Funktion. Diese Funktion hat die Form
Dabei ist ein Vektor, der eine Funktion der aktuellen Board-Position ist (laut Artikel wird der lineare Softmax nur im letzten Schritt des Richtliniennetzwerks verwendet), und ist ein Vektor von Gewichten, die zusammen die Wahrscheinlichkeit bestimmen, dass die Richtlinie Netzwerk wählt Aktion .x βich einich
quelle