Mir sind verwandte Fragen und gute Antworten zum gleichen Thema bekannt, z. B. AlphaZero verstehen . Meine Fragen beziehen sich auf die folgende Abbildung zum Suchverfahren von AlphaZero
Diese Abbildung stammt aus dem Wissenschaftspapier zu AlphaZero (Abb. 4, Seite 4). Die Suche wird nach einer Position aus dem sehr schönen Spiel 1 AlphaZero (weiß) und Stockfish (schwarz) nach 29 dargestellt. ... Df8. Der Rest der Anmerkung der Figur ist wie folgt
Der interne Zustand von AlphaZeros MCTS wird nach 10 ^ 2, ..., 10 ^ 6 Simulationen zusammengefasst. Jede Zusammenfassung zeigt die 10 am häufigsten besuchten Staaten. Der geschätzte Wert wird in jedem Zustand aus der Sicht von Weiß angezeigt und auf den Bereich [0, 100] skaliert. Die Anzahl der Besuche jedes Zustands im Verhältnis zum Stammzustand dieses Baums ist proportional zur Dicke des Grenzkreises. AlphaZero berücksichtigt 30.c6, spielt aber schließlich 30.d5.
Ich würde mich über einige Einblicke in die folgenden Fragen freuen. (Wichtig zu beachten, dass ich nur ein Schachspieler ohne Kenntnisse der Informatik bin. Ich finde das immer noch faszinierend.)
- Was repräsentiert die 10 ^ 2, ..., 10 ^ 6 Simulationen? Ich bin sehr verwirrt, weil sie im ergänzenden Material feststellen, dass "während des Trainings jedes MCTS 800 Simulationen verwendet hat".
- Was bedeutet es, dass jedes MCTS 800 Simulationen verwendet hat?
- Ich gehe davon aus, dass der Wert von 60 im roten Kreis in den 10 ^ 2-Simulationen eine erwartete Punktzahl von 60% für Weiß darstellt, was der Durchschnitt aller Positionsbewertungen ist. Der einfache Durchschnitt der 9 gezeigten Züge beträgt jedoch 61,2. Ich denke, dass auch andere Bewegungen berücksichtigt und simuliert wurden. Bin ich hier richtig
- Ich gehe davon aus, dass sie für die Simulationen 10 ^ 3 bis 10 ^ 6 nur eine veranschaulichende Stichprobe der Zweige darstellen. Die Simulation 10 ^ 5 wird nach 34.Tce1 nicht angezeigt oder nach 34.Tce1 gestoppt? Ich denke, dass jede Simulation bis zu einer erwarteten Punktzahl von 100% geht.