Liste, wie AlphaZero Öffnungen bewertet

8

In seinem Prozess, Schach zu lernen und mit jeder Sekunde stärker und stärker zu werden, lernte AlphaZero Eröffnungen. Einige wurden am Anfang oft gespielt, verloren aber im Laufe der Zeit an Popularität von AlphaZero (z. B. French Defense). Hier finden Sie vier Beispiele: Die Zukunft ist da - AlphaZero lernt Schach

Ich habe irgendwo gelesen, dass AlphaZero 12 Eröffnungen gespielt (und so ausgewertet) hat. Ich würde gerne eine Liste von ihnen sehen, vielleicht mit den Grafiken (nicht nur die 4 oben genannten).

Danke im Voraus.

BNetz
quelle

Antworten:

10

Sie finden die vollständige Tabelle in ihrem Papier. Siehe Tabelle 2 in der unten verlinkten arXiv-Version:

Wie man sie liest:

  • Die Diagramme zeigen, wie oft Alphazero während seiner Selbsttrainingsspiele eine bestimmte Eröffnung gespielt hat, als Funktion der Trainingszeit. Sie können also z. B. sehen, dass sein Interesse an der Verwendung der französischen Verteidigung nach 2 Stunden seinen Höhepunkt erreicht hat, aber danach fällt es abrupt auf nahe 0 ab, was darauf hinweist, dass nach 2 Stunden + Training festgestellt wurde, dass die aus dieser Öffnung austretenden Linien im Vergleich zu nicht optimal sind andere Möglichkeiten, wie die Caro-Kann-Verteidigung (die nach 2 Stunden ein vielversprechendes Plateau hatte, aber schließlich auch abfiel, siehe Abbildung unten).
  • Dann sehen Sie unter den Diagrammen, wie es in 100 Spielkämpfen für jede Linie gegen Stockfish lief. Schließlich ist die Hauptvariante von Alphazero für jede Öffnung auch unter den Darstellungen angegeben. Weitere Einzelheiten entnehmen Sie bitte der Beschriftung der Tabelle im Papier.

Insgesamt fällt die englische Eröffnung auf: Sie setzte sie während ihrer gesamten Ausbildung konsequent ein. Letztendlich deutet das Muster auf eine Tendenz zu vielseitigeren Öffnungen hin.

Caro-Kann-Diagramm aus Tabelle 2: [Ref]

Geben Sie hier die Bildbeschreibung ein


[Ref]: Silver, David et al. "Schach und Shogi durch Selbstspiel mit einem allgemeinen Verstärkungslernalgorithmus beherrschen." arXiv-Vorabdruck arXiv: 1712.01815 (2017)

Ellie
quelle
Vielen Dank! Interessant, dass das Queens Gambit sehr unentschieden zu sein scheint und AlphaZero im King's Gambit nicht einmal ein Spiel mit Black gewinnt!
BNetz
Es ist ziemlich lange her, dass ich die Zeitung gelesen habe, aber ich habe das Gefühl, dass er später fast aufgehört hat, e4 zu spielen, und angefangen hat, 1.Sf3 zu beschäftigen, wenn ich mich gut erinnere. Das wäre ein starker Grund für kein Caro-Kan, Französisch, Sizilianisch ...
Hoacin
1
@hoacin Soweit ich sehe, wird in der Zeitung nichts über den Anteil der 1. Nf3gewählten Zeiten erwähnt . Andererseits analysieren sie in Tabelle 2 des Papiers nur die gemeinsamen menschlichen Öffnungen, an denen 1. Nf3sie nicht teilnehmen. Darüber hinaus heißt es in dem Artikel: "Jede dieser Öffnungen wird von AlphaZero während des Selbstspieltrainings unabhängig entdeckt und häufig gespielt." Dies bedeutet, dass die diskutierten Statistiken unabhängig davon gesammelt werden, ob 1. Nf3sie häufiger übernommen wurden oder nicht. Ich glaube übrigens, Sie meinten " es " und nicht " er ". :)
Ellie
Wir müssen berücksichtigen, dass Alpha Zero gelernt hat, aber gegen eine Engine spielt, die ein Eröffnungsbuch hat. Daher ist es angemessener, den Alpha-Zero-Algorithmus als eine Art Sonde zu betrachten, die das Öffnungsbuch der Oponent-Engine entschlüsselt.
Djnavas
1
@djnavas Stockfish hat in diesem Match kein Eröffnungsbuch verwendet, siehe Link. Darüber hinaus heißt es in der Arbeit ausdrücklich, dass die Öffnungen unabhängig voneinander selbst entdeckt wurden, dh einfach durch Berücksichtigung optimaler Züge (in den Spielen gegen sich selbst) ohne Eingabewissen der vorhandenen Eröffnungstheorie.
Ellie
2

Überprüfen Sie das Papier selbst , insbesondere Seite 6. Es gibt in der Tat 12 Eröffnungen, von denen einige AlphaZero weiter spielten, andere, die es eine Weile spielte und dann verwarf.

Locken
quelle