Liste, wie AlphaZero Öffnungen bewertet

Sie finden die vollständige Tabelle in ihrem Papier. Siehe Tabelle 2 in der unten verlinkten arXiv-Version:

Beherrschen von Schach und Shogi durch Selbstspiel mit einem allgemeinen Verstärkungslernalgorithmus https://arxiv.org/pdf/1712.01815.pdf

Wie man sie liest:

Die Diagramme zeigen, wie oft Alphazero während seiner Selbsttrainingsspiele eine bestimmte Eröffnung gespielt hat, als Funktion der Trainingszeit. Sie können also z. B. sehen, dass sein Interesse an der Verwendung der französischen Verteidigung nach 2 Stunden seinen Höhepunkt erreicht hat, aber danach fällt es abrupt auf nahe 0 ab, was darauf hinweist, dass nach 2 Stunden + Training festgestellt wurde, dass die aus dieser Öffnung austretenden Linien im Vergleich zu nicht optimal sind andere Möglichkeiten, wie die Caro-Kann-Verteidigung (die nach 2 Stunden ein vielversprechendes Plateau hatte, aber schließlich auch abfiel, siehe Abbildung unten).
Dann sehen Sie unter den Diagrammen, wie es in 100 Spielkämpfen für jede Linie gegen Stockfish lief. Schließlich ist die Hauptvariante von Alphazero für jede Öffnung auch unter den Darstellungen angegeben. Weitere Einzelheiten entnehmen Sie bitte der Beschriftung der Tabelle im Papier.

Insgesamt fällt die englische Eröffnung auf: Sie setzte sie während ihrer gesamten Ausbildung konsequent ein. Letztendlich deutet das Muster auf eine Tendenz zu vielseitigeren Öffnungen hin.

Caro-Kann-Diagramm aus Tabelle 2: [Ref]

[Ref]: Silver, David et al. "Schach und Shogi durch Selbstspiel mit einem allgemeinen Verstärkungslernalgorithmus beherrschen." arXiv-Vorabdruck arXiv: 1712.01815 (2017)

Ellie
quelle

Vielen Dank! Interessant, dass das Queens Gambit sehr unentschieden zu sein scheint und AlphaZero im King's Gambit nicht einmal ein Spiel mit Black gewinnt!

BNetz

Es ist ziemlich lange her, dass ich die Zeitung gelesen habe, aber ich habe das Gefühl, dass er später fast aufgehört hat, e4 zu spielen, und angefangen hat, 1.Sf3 zu beschäftigen, wenn ich mich gut erinnere. Das wäre ein starker Grund für kein Caro-Kan, Französisch, Sizilianisch ...

Hoacin

@hoacin Soweit ich sehe, wird in der Zeitung nichts über den Anteil der 1. Nf3gewählten Zeiten erwähnt . Andererseits analysieren sie in Tabelle 2 des Papiers nur die gemeinsamen menschlichen Öffnungen, an denen 1. Nf3sie nicht teilnehmen. Darüber hinaus heißt es in dem Artikel: "Jede dieser Öffnungen wird von AlphaZero während des Selbstspieltrainings unabhängig entdeckt und häufig gespielt." Dies bedeutet, dass die diskutierten Statistiken unabhängig davon gesammelt werden, ob 1. Nf3sie häufiger übernommen wurden oder nicht. Ich glaube übrigens, Sie meinten " es " und nicht " er ". :)

Ellie

Wir müssen berücksichtigen, dass Alpha Zero gelernt hat, aber gegen eine Engine spielt, die ein Eröffnungsbuch hat. Daher ist es angemessener, den Alpha-Zero-Algorithmus als eine Art Sonde zu betrachten, die das Öffnungsbuch der Oponent-Engine entschlüsselt.

Djnavas

@djnavas Stockfish hat in diesem Match kein Eröffnungsbuch verwendet, siehe Link. Darüber hinaus heißt es in der Arbeit ausdrücklich, dass die Öffnungen unabhängig voneinander selbst entdeckt wurden, dh einfach durch Berücksichtigung optimaler Züge (in den Spielen gegen sich selbst) ohne Eingabewissen der vorhandenen Eröffnungstheorie.

Ellie

Liste, wie AlphaZero Öffnungen bewertet

Antworten: