Wie ist Alpha Zero „menschlicher“?

35

Ich habe eine möglicherweise naive Frage zu AlphaZero. Ich habe es als "menschlicher" beschrieben gesehen als andere Computer, aber was auch immer es tut, es gewinnt ungefähr 100 ELO-Punkte, indem es es tut. Kasparov und viele andere haben behauptet, dass ein starker Mensch in Zusammenarbeit mit einem Computer einen starken Computer schlagen wird (vielleicht um etwa 100 ELO ??). Eine naheliegende Frage ist also, wie sich AlphaZero mit einer "Zentauren" -Kombination vergleichen lässt.

Nachdem ich mir nur ein paar Spiele angesehen habe, stelle ich fest, dass die meisten Computer offene Spiele spielen, die ihre eigene Mobilität maximieren, aber AlphaZero scheint sehr darum bemüht zu sein, die Mobilität des Gegners einzuschränken. In einem menschlichen Spieler würde ich dies als eine Frage des Stils beschreiben, nicht mehr oder weniger menschlich.

Philip Roe
quelle
4
Für das, was es wert ist, ist diese Behauptung von Kasparov sehr veraltet. Ein Mensch und ein Computer in Zusammenarbeit ("fortgeschrittenes Schach" oder "Zentaurenschach") können einen Computer nicht mehr alleine übertreffen - Computer sind einfach zu gut - Stockfish 8 hat eine Bewertung von ungefähr 3400 IIRC im Vergleich zu 2825 für Magnus Carlsen .
Stephen Touset
8
@StephenTouset Vorsicht beim Umgang mit Elo-Werten für Motoren. Die, die ich am häufigsten gesehen habe, stammen aus Motor-gegen-Motor-Vergleichen, die nicht für einen echten Menschen standardisiert wurden. Relevantes Wikipedia- Zitat: "Diese Bewertungen [...] stehen in keinem direkten Zusammenhang mit den Bewertungen von FIDE Elo oder anderen Schachverbänden menschlicher Spieler. Mit Ausnahme einiger Spiele, die der SSDF vor vielen Jahren organisiert hatte (die weit entfernt waren) Aus heutiger
Sicht
1
Ich denke Menschen könnten das aber nicht in Standardzeiten kontrollieren. Lange Korrespondenzspiele sollten in Ordnung sein.
SmallChess
4
AlphaZero ist ein Google-Produkt. Kein Wunder also, dass Sie mehr Propaganda darüber hören als bei Produkten anderer Unternehmen. Ich denke, sie haben bessere Geschäfte mit Autoren und Verlegern. Nehmen Sie es mit einem Haufen Salz, wie alles an Waymo.
Coderworks

Antworten:

33

Seite 5 in der Zeitung hat Ihre Antwort:

... AlphaZero kompensiert die geringere Anzahl von Bewertungen, indem es sein tiefes neuronales Netzwerk verwendet, um bei den vielversprechendsten Variationen viel selektiver zu kosten - wohl eine "menschlichere" Herangehensweise an Schach ...

"selektiv" ist das Schlüsselwort. Was bedeutet das? Verwenden wir diese folgende Position für unser Beispiel:

https://chess24.com/de/read/news/london-classic-5-caruana-shows-how-it-s-done

Bewegt

Dies ist ein aktuelles Spiel, das Caruana 2017 in London Chess Classic gewonnen hat. Der weiße Bischof ist unterangegriffen, und Sie wissen, dass Sie ihn bewegen müssen. Aber wo?

Möglichkeiten (kein Stück zu verlieren):

  • Bh4
  • Be3
  • Bd2
  • Bc1

Was dachte Caruana?

Ich hatte das Gefühl, dass ich irgendwann verlieren würde, aber als ich 25.Lc1 sah, wurde ich plötzlich ein bisschen optimistischer in Bezug auf meine Chancen. Ich erkannte, dass meine Position schlecht ist, aber zumindest hatte ich einen Plan und das war wirklich alles, was ich für ein gewisses Vertrauen in diese Position brauchte. Als ich dieses b3, c4 sah, ist die Position zweischneidig und ich habe einige Chancen.

Das ist menschliches Denken und ein "menschlicher Schachzug". Caruana hatte Bh4, Be3 und Bd2 nicht in Betracht gezogen, weil sie schlecht aussahen. Er hatte sich nur und nur auf die Lc1-Bewegung konzentriert.

Menschen spielen sehr selektiv Schach , wir verwerfen unvernünftige Züge, weil wir nicht die Zeit haben, alle Möglichkeiten gleichermaßen zu prüfen.

  • Wir werfen Bh4 weg, weil es die Spannung am Bauern h6 löst
  • Wir werfen Be3 weg, weil es die beiden weißen Türme auf dem dritten Rang blockiert
  • Wir legen Bd2 ab, weil es die Weiße Königin von der Königsseite abhält

Das ist, was AlphaZero in der Zeitung zu behaupten versucht. Sie behaupten, dass ihr Algorithmus, obwohl er langsamer als Stockfish ist, bei der Suche selektiv bessere Züge als Stockfish auswählen kann . Stockfisch ist zwar schneller, verschwendet aber Zeit bei schlechten Bewegungen. AlphaZero ist langsamer, aber genauer (wie Caruana es tat).

Zum Beispiel könnte AlphaZero 80% Ressourcen für Bc1 und 20% für alle anderen Bischofszüge ausgeben. Stockfisch kann 25% für jeden Zug geben (Bh4, Be3, Bd2, Bc1).

Kleinschach
quelle
1
Im Grunde genommen ist der Spielstil nicht unbedingt menschlicher, aber der Ansatz, den nächsten Zug zu finden, ist derjenige. Zumindest laut der Zeitung. Ich kann es auch nicht bearbeiten, aber Ihr Caruana-Zitat hat einen ziemlich großen Tippfehler: "Als ich sein b3, c4 sah" sollte lauten "Als ich dieses b3, c4 sah"
Arthur
@ Arthur Laut dem Artikel (und nur dem Artikel) ist der Spielstil nicht unbedingt menschlicher. Ich sage nicht NEIN, aber nichts in der Zeitung sagt das aus.
SmallChess
Monte-Carlo-Algorithmen verfügen über einen Parameter zur Steuerung des Exploits von x. Daher werden Bewegungen, die Alpha-Beta aufgrund der Zeit niemals berücksichtigen würde, von Alpha-Null nicht berücksichtigt.
Fernando
@Fernando Kannst du erklären, worauf du reagierst? Ich bemühe mich, den Punkt zu verstehen. Ich bin auch verwirrt von "nie wegen der Zeit in Betracht ziehen". Alpha-Beta-Suche ignoriert Zweige, die deutlich schlechter sind als einige andere bereits untersuchte Zweige. Ich verstehe nicht, was das mit der Zeit zu tun hat.
IA Petr Harasimovic
Grundsätzlich, wenn eine Zeile +0,32 und die andere +0,13 ist, wird AlphaZero Zeit mit der ersteren verbringen.
Jossie Calderon
16

Die meisten starken Motoren legen großen Wert darauf, sehr genau hinzuschauen, auf Kosten einer oberflächlichen Bewertungsfunktion. In der AlphaZero-Zeitung heißt es, Stockfish betrachte 70 Millionen Positionen pro Sekunde.

Menschliche Großmeister sehen zwar nur sehr wenige Positionen im Vergleich zu Motoren, aber sie haben ein besseres Gefühl, wer in einer bestimmten Position besser ist.

AlphaZero betrachtete nur 80.000 Positionen pro Sekunde und verbringt daher viel mehr Zeit mit seiner Auswertungsfunktion.

In diesem Sinne bedeuteten sie "menschlicher", nicht mehr.

RemcoGerlich
quelle
11

AlphaZero scheint bereits wie ein normaler "Zentaur" -> Korrespondenz-GM mit einer Motorunterstützung zu spielen.

Als FM würde ich viel mehr Spaß daran haben, AlphaZero gegen eine normale Engine zu spielen.

Ein Vergleich wäre, dass es so spielt wie Karpov mit perfekter Taktik. (Spiel 9 AlphaZero spielt eine Figur für 15 Züge aus, was sehr nach Tal aussieht).

Es ist nicht nur Stil, AlphaZero vermittelt den Eindruck, Positionen besser zu verstehen als Stockfish.

AlphaZero leidet auch nicht unter dem Horizon-Effekt, unter dem ALLE Schachengines bisher gelitten hatten. Immer wieder ist es möglich, eine Position korrekt einzuschätzen, die sich weiter nach unten bewegt als Stockfish.

Hier ist ein Beispiel:

AlphaZero - Stockfisch, Alphazero gegen Stockfisch: AlphaZero - Stockfisch, 2017-12-05, 1-0
1. d4 e6 2. e4 d5 3. Nc3 Nf6 4. e5 Nfd7 5. f4 c5 6. Nf3 cxd4 7. Nb5 Bb4 + 8. Bd2 Bc5 9. b4 Be7 10. Nbxd4 Nc6 11. c3 a5 12. b5 Nxd4 13. cxd4 Nb6 14. a4 Nc4 15. Bd3 Nxd2 16. Kxd2 Bd7 17. Ke3 b6 18. g4 h5 19. Dg1 hxg4 20. Dxg4 Bf8 21. h4 Qe7 22. Rhc1 g6 23. Tc2 Kd8 24. Rac1 Qe8 25. Tc7 Tc8 26. Txc8 + Bxc8 27. Tc6 Bb7 28. Tc2 Kd7 29. Sg5 Be7 30. Txg6 Bxg5 31. Dxg5 fxg6 32. f5 Rg8 33. Dh6 Qf7 34. f6 Kd8 35. Kd2 Kd7 36. Tc1 Kd8 37. Qe3 Df8 38. QC3 QB4 39. Qxb4 axb4 40. Rg1 b3 41. Kc3 Lc8 42. Kxb3 Bd7 43. Kb4 Be8 44. Ra1 KC7 45. a5 Bd7 46. axb6 + Kxb6 47. Ra6 + KB7 48. Kc5 Rd8 49. Ra2 Rc8 + 50. Kd6 Be8 51. Ke7 g5 52. hxg5 1-0

AlphaZero spielt den König um 16 zu zentrieren. Kxd2! in einem mittleren Spiel richtig beurteilen, dass Schwarz nicht in der Lage sein wird, einen Vorteil daraus zu ziehen.

Es ist in der Lage, ein Stück Opfer 30 korrekt zu bewerten. Lxg6! Während normale Motoren nicht erkennen können, dass sie für eine Reihe von Zügen verloren gegangen sind.

  1. f5 ist auch ganz nett.

Es gibt noch andere Beispiele wie das Tauschopfer in Spiel 3.

Sint
quelle
8

Es ist so einfach, auf einen Zug zu springen, wenn man sagt, Alpha-Zeros Spiel sei menschlicher als frühere Computerschachprogramme, als wenn man auf den anderen Zug springt und sagt, Alpha-Zeros Spiel sei völlig "fremd". Es ist nicht klar, dass Alpha-Zero 'menschlicher' ist, insbesondere angesichts unserer menschlichen Tendenz zum Anthropomorphismus.

Schach als Kampf des (menschlichen) Geistes

Aber stimmt diese Tendenz im Schach? Magnus Carlsen hat einmal darüber gesprochen, wie „traditionellen“ Computern im Allgemeinen die menschliche Kreativität fehlt.

"Beim Schach dreht sich alles um den Kampf zwischen menschlichen Köpfen. Das macht es aufregend. Computerschach ist mechanisch, trocken und langweilig. Die Züge sind natürlich sehr stark, aber es gibt keinen Stil. Wenn Sie versuchen, gegen einen Schachcomputer zu spielen Sie werden nicht nur mit sehr hoher Sicherheit verlieren, sondern sich auch langweilen.

Magnus Carlsen konnte in traditionellen Schachcomputern keine menschlichen Spielstile nachweisen. Untersuchen wir also, ob Alpha-Zeros jüngste Errungenschaft diese Perspektive zunichte gemacht und uns zu etwas bewegt hat, das mehr an uns selbst erinnert.

Wenn Sie mit "menschlich" ein Spiel meinen, bei dem es sich eher um ein Verhalten handelt, das unseren Sinn für Anthropomorphismus anspricht, erscheint Alpha-Zero dann menschlicher? Wie können wir wirklich testen, ob diese subjektiven kurzsichtigen Menschen auf nichtmenschliche Dinge projizieren? Fragen wir uns: Wählt der Algorithmus in seinem Spielstil "selektiv besser" oder zeigt er "menschlichere kreative Wahlmöglichkeiten"?

Der Schöpfer des Algorithmus zeigen , dass im Gegensatz zu Stockfisch , die einen Alpha-Beta - Suchalgorithmus verwendet, Alpha-Zero verwendet eine Algorithmus Monte-Carlo Baumsuche (MCTS) , die als Eingabe akzeptiert ein gewichtete Parameter ^ von früheren Ergebnissen ~ aufgebaute Seite 3. Mastering Schach und Shogi durch Selbstspiel mit einem allgemeinen Verstärkungslernalgorithmus ).

Der Algorithmus weist also überhaupt keine Auswahl auf. Tatsächlich wird eine zufällige, aber probabilistische Monty-Carlo-Suche durchgeführt, bei der die verfügbaren Suchpfade zunehmend durch frühere Ergebnisse beeinträchtigt werden. Hat Alpha-Zero beschlossen, seinen Spielstil auf diese Weise zu optimieren, oder war das die Wahl seiner Programmierer?

Stehen Alpha-Null immer alle möglichen Züge zur Betrachtung zur Verfügung oder sind einige Züge algorithmisch so voreingenommen, dass sie Erfahrungen nachahmen, die vom Menschen anthropomorph interpretiert werden können?

Anfänglich standen ihm alle Moves zur Verfügung, so dass sein "Stil" völlig zufällig war. Da die Suche jedoch durch früheren Erfolg oder Misserfolg zunehmend und optimal eingeschränkt wird, ändert sich ihr Stil tatsächlich in Richtung des Modus, mit dem sie von den Programmierern gefesselt wurde. Ist das aber "menschlicher"? Vergleichen Sie dies mit Magnus Carlesen, der manchmal weniger optimale Züge wählt, weil er kreativer ist :

Magnus Carlsen: „Ich schätze es, etwas Einzigartiges zu schaffen“

Schach als Kampf des (fremden) Geistes

Menschen können die Kriterien auswählen, die ihren eigenen Spielstil bestimmen (zum Beispiel habe ich oft Impuls und Fehler in meinem eigenen Stil gewählt). Viele sehen Alpha-Zero in beiden Schachpartien und gehen als entschieden Alien . Nick Hynes, ein Student am MIT-Labor für Informatik und künstliche Intelligenz (CSAIL), stellt fest:

„Was wir hier sehen, ist ein Modell, das frei von menschlichen Vorurteilen und Voraussetzungen ist: Es kann lernen, was immer es für optimal hält, was in der Tat nuancierter sein kann als unsere eigenen Vorstellungen davon. Es ist wie eine fremde Zivilisation, die ihre eigene Mathematik erfindet, die es ihr ermöglicht, Dinge wie Zeitreisen zu tun ... “

Ebenso sagte GM Peter Heine Nielsen gegenüber Chess.com :

"Nachdem ich die Zeitung gelesen und vor allem die Spiele gesehen hatte, die ich dachte, fragte ich mich immer, wie es wäre, wenn eine überlegene Spezies auf der Erde landen würde und zeigte uns, wie sie Schach spielen. Ich fühle mich jetzt, wie ich weiß."

Es scheint, dass die meisten auf Alpha-Zero's aufkommenden Spielstil als "Alien-Spiel" und nicht als "menschlicher" reagieren.

Daher gibt es Grund, den obigen Antworten mit "Ja" nicht zuzustimmen.

user34445
quelle
3
Ihre Antwort ist an manchen Stellen irreführend und ungenau. Die Verwendung von MCTS ist nicht der entscheidende Unterschied, deshalb schlägt es Stockfish nicht. Sie könnten auch die Alpha-Beta-Suche verwenden, sie hatten einfach das Gefühl, dass MCTS für sie besser funktioniert. Die Hauptelemente des AlphaZero-Algorithmus sind ein sehr tiefes neuronales Faltungsnetzwerk, Verstärkungslernen (dh das Netzwerk wird durch Selbstspiel eingestellt) und eine Baumsuche (was zufällig MCTS ist, aber das ist nicht erforderlich). Es ist nichts Handgemachtes drin, was besagt, dass "sein Stil sich tatsächlich in Richtung des Modus ändert, mit dem die Programmierer ihn gefesselt haben", was falsch ist.
IA Petr Harasimovic
"Beim Schach dreht sich alles um den Kampf zwischen den menschlichen Köpfen. Das ist es, was es aufregend macht. Das Computerschach ist mechanisch, trocken und langweilig. Die Züge sind natürlich sehr stark, aber es gibt keinen Stil." Hat jemand ein gut durchgeführtes Turing-Test-Experiment mit einer Reihe von GMs durchgeführt, die einen anonymen Gegner spielen, der entweder ein Mensch oder ein Computer sein kann?
Wenn Sie meinen, dass MCTS der entscheidende Unterschied ist (zwischen Alpha-Null und Stockfisch), dann haben Sie meinen Standpunkt verfehlt. Mein Punkt war, dass Menschen und nicht Algorithmen den Spielstil von Alpha-Null bestimmten, sondern die Entscheidung von Alpha-Null. Mein Punkt war, dass diese sehr menschlichen Entscheidungen einen Spielstil zu vermitteln scheinen, der sowohl GMs als auch Amateuren als entschieden nicht menschlich erscheint.
user34445
Dr. Eval check out - cs.stackexchange.com/questions/68249/…
user34445
1
@ user34445 Eigentlich denke ich, dass Absatz überhaupt keinen Sinn hat, ich habe nur versucht, ihn zu rationalisieren. Die Menschen entschieden sich nicht für AlphaZeros Spielstil, sondern für seinen Lernstil. Sie haben nicht unbedingt ihre Meinung zum Schachspiel geäußert.
IA Petr Harasimovic
5

Dies ist eine unglaublich interessante Zeit, um am Leben zu sein.

Ab den 1970er Jahren waren Schachcomputer Minimax-Baum-basierte Suchalgorithmen mit Alpha-Beta-Bereinigung. Diese Programme wurden sowohl aufgrund von Fortschritten bei der Computergeschwindigkeit und -parallelität als auch aufgrund von Verbesserungen bei der heuristischen Bewertungsfunktion, die zum Beschneiden von Zweigen und zum Auswählen von Blattknoten verwendet wurde, immer stärker. Aber die Leute haben längst gemerkt, wie materialistisch und langweilig das Computerspiel ist, und viele Leute (ich selbst eingeschlossen) hielten es für unmöglich, "menschliche" Intuition in Software zu codieren.

Aber hast du diese Spiele gesehen?

AlphaZero zeigt ein unglaublich schönes Spiel, einschließlich mehrerer Beispiele für Materialopfer, um einen langfristigen Positionsvorteil zu erzielen. Dies erinnert an einige der schönsten Spiele menschlicher Meister, aber auch mit unerreichter technischer Genauigkeit. Dies ist das erste Beispiel, das ich in meinem Leben von etwas gesehen habe, das computergeneriert ist und auch eine tiefe Schönheit hat .


Die Centaur Behauptung:

Ich habe Garry so oft sagen hören, aber es ist einfach nicht wahr. Zumindest wird es mit AlphaZero auf der Bühne nicht mehr wahr sein.

Stellen Sie sich Folgendes vor: Es gibt einen Stücksack mit 10.000 relevanten Fortsetzungen, von denen 5.000 rein taktisch sind (und dennoch größtenteils nichts miteinander zu tun haben) und 5.000 größtenteils positionsbezogen sind (und doch größtenteils nichts miteinander zu tun haben). Wie könnte ein Mensch all diese Variationen durchsehen, ohne einen Fehler zu machen? Wenn AlphaZero nun diese hochkreativen Bewegungen betrachten kann, welchen Beitrag könnte ein Mensch möglicherweise leisten?


Die letzte Grenze:

Es gibt noch einen Ort, an dem die Brute-Berechnung immer noch tiefe neuronale Netze schlägt: Endspiele. Es gibt keine Intuition, die eine Tischbasis übertrifft. Die Endungen, die eine Tabellenbasis erfordern (weil ein Suchbaum nicht tief genug sein kann, um nur den richtigen Zug zu berechnen), sind jedoch ziemlich selten. Und Sie könnten einfach eine Tischbasis in AlphaZero einstecken, aber das würde die Reinheit einer "Autodidakt" -Engine zerstören, oder?

Fixee
quelle
3

Da Menschen nicht in der Lage sind, tief zu suchen, wie dies bei herkömmlichen Computerschachprogrammen (fritz, stockfish et al.) Der Fall ist, erstellen sie „strategische Prinzipien“ oder Daumenregeln (Zentralkontrolle, Entwicklung, Königssicherheit) und Konzepte oder Tricks, die in den unterschiedlichsten Bereichen anwendbar sind Situationen auf verschiedene Arten, wie Opfer, verbundene Türme, Läuferpaar, bestimmte Enden, z. B. wie man den König mit einem Turm und einem Bauern in die Enge treibt.

Ich denke, Alpha Zero hat viele solcher Konzepte (Wahrnehmungen und Konzepte) unabhängig voneinander neu erfunden und auch Unmengen neuer Konzepte gelernt - weil sein Wissen nicht auf menschlichen Bewertungsfunktionen aufbauen musste und die starke Minmax-Suche, die immer davon ausgeht, dass der Gegner a ist Genius.

Selbstverständlich widersprechen sich solche Prinzipien in manchen Situationen, weshalb verschiedene Eröffnungsspiele und Fallstricke sorgfältig untersucht werden - z. B. nicht zu früh zur Königin werden.

Andererseits bemerken die Menschen auch, dass Sie, sobald Sie ein Teil verlieren (ohne Austausch), Ihre Streitkräfte schwächen, sodass sie äußerst vorsichtig sind, kein Teil ohne Ausgleich zu verlieren.

Ich denke, dass Alphazeros Spiel das Computerschach (und das menschliche Schach) von der sklavischen Angst befreit hat, kleines Material zu verlieren und übermäßig auf das Öffnen von Büchern und Stückwerten angewiesen zu sein.

Alphazero-Spiele zeigen, dass Dinge wie die „strategischen Prinzipien“ wie Zentrumskontrolle, Entwicklung, Raum, Initiative viel wichtiger sind, wenn Ihr Gegner schlampig ist. Mit anderen Worten, 'opfern' ist nicht wirklich opfern, sondern ein Stück gegen einen Gewinn an Initiative, Position und gezielter Bewegung eintauschen.

Alphago (nicht die Null) stützte sich auf die menschliche Bewertung, aber Alphazero richtet die gesamte Bewertungskette auf "Suche oder Simulation" als einen einzigen End-to-End-Prozess ein und bietet eine völlig neue Spielweise.

Wenn Sie darüber nachdenken, wurden große Meister der Vergangenheit wie Morphy, Fischer, Kasparov für diese Art von - kontraintuitivem - Spiel gelobt, bei dem sie nicht an eine Bewertung auf Stein gebunden sind, indem sie besondere Situationen ausnutzen, die sie ausnutzen entstehen. Ich denke, Alpha-Zero-Spiele haben einen solchen "Wow" -Faktor.

Warum neuronale Netze? Während Computerprogramme, die symbolische Repräsentation und diskrete Suche verwenden, nur eine Art des Denkens verwenden können, können neuronale Netze Situationen mit abwechselnden, widersprüchlichen Bewertungen parallel verarbeiten und in späteren Schichten zur wertvolleren Ansicht wechseln.

Ravi Annaswamy
quelle
2

Menschlicher in dem Sinne, dass die Bewegungen, die es spielt, mehr oder weniger mit einer menschlichen Herangehensweise zusammenfallen: Spielen zum langfristigen Vorteil, Positionsopfer, Stückaktivität. Es gibt eine offensichtliche Konvergenz mit menschlichem Schachwissen und akzeptierten strategischen Prinzipien, die im Laufe der Jahrhunderte verfeinert wurden (z. B. hat es viele gleiche Öffnungen "entdeckt"). Dies ist insofern bemerkenswert, als AlphaZero nicht mit von Menschen konstruiertem Schachwissen besetzt ist.

Aber die Ähnlichkeiten enden hier. AlphaZero bringt es auf die nächste Ebene und macht es besser und auf eine Weise, die Menschen noch nie erdacht haben. AlphaZero verfügt über "übermenschliche" Fähigkeiten, um das Papier zu zitieren: "AlphaZero hat ein übermenschliches Spielniveau erreicht [...]" ( https://arxiv.org/pdf/1712.01815.pdf ). Außerdem hat es nicht die Schwächen, die den Menschen innewohnen: Konzentrationsprobleme, Angst, Müdigkeit, Gefühle, Intuition usw., die den Menschen einschränken. Und sein Silizium-Gehirn ermöglicht bei Bedarf taktische Kombinationen, die über die menschlichen Fähigkeiten hinausgehen.

AdamL
quelle
2
Dann gibt es ein Paradoxon. Stockfisch profitiert von menschlicher Erfahrung; Alphazero nicht. Aber Alpha Zero scheint menschlicher zu sein. Das bedeutet vielleicht, dass wir mit der Stackfish-Generation keine sehr gute Arbeit geleistet haben, um unsere Gedanken zu destillieren
Philip Roe,
1

Ich möchte mich bei allen bedanken, die auf diese Frage geantwortet haben, oftmals mit Feinheit und Einsicht. Der Hauptunterschied in den Antworten scheint mir in der Interpretation des Wortes Mensch zu liegen.

AlphaZero spielt kein menschliches Schach im Sinne von Versehen und Fehleinschätzungen, aber sein "Gedanken" -Prozess scheint in einer erhöhten Form zu entsprechen, wie ich denke, dass die meisten starken Spieler denken. Sie erstellen ziemlich schnell eine Liste von "Kandidatenzügen", die Sie spielen möchten, und für die stärksten Spieler ist diese Liste erstaunlich genau und spielt sogar so etwas wie ein erkennbar vernünftiges Spiel in einer Minute. Der Rest der Zeit wird damit verbracht zu fragen, welche der Bewegungen auf dieser Liste wirklich funktionieren. Petrosian sagte, dass er sich am besten in Form fühle, wenn der Zug, den er schließlich spielte, der war, an den er zuerst dachte. Wir alle wissen, wie befriedigend es ist, wenn sich herausstellt, dass der Zug, den wir am liebsten spielen wollten, taktisch spielbar ist. Ich kann mich viel einfacher auf den AlphaZero-Algorithmus beziehen als auf die AlphaBeta-Suche.

Am interessantesten erscheint, wie die Maschine die vielversprechenden Kandidaten im Alleingang erkennen konnte. Hier liegt das Potenzial für eine echte Revolution. Ich frage mich, ob dies nur für Bereiche wie Schach und Go möglich ist, in denen die Ziele klar definiert werden können. Aber ich finde es auffällig, dass AlphaZero zielgerichtet zu spielen scheint, aber Stockfish hat keine Ahnung, was los ist.

Philip Roe
quelle
0

So wie ich neuronale Netze verstehe, liegt der wahre Vorteil von A0 in der überlegenen Bewertung der Board-Positionen. Diese Bewertung umfasst sowohl kurzfristiges taktisches Wissen (das in gewissem Sinne als Multiplikator für die Anzahl der untersuchten Positionen dient) als auch eine überlegene Bewertung des strategischen Werts.

Steinar Vatne
quelle
1
Willkommen bei der Chess SE! Könnten Sie bitte eine Referenz für die Gründe angeben, warum neuronale Netze Ihrer Meinung nach so funktionieren?
Pablo S. Ocal
0

Ich habe das Gefühl, dass die ganze Diskussion versäumt hat, dass A0 Schach, Shogi und Go spielen kann, alles sehr gut und alles aus dem Selbsttraining. Das ist viel menschlicher. Darüber hinaus hat es den Top-Spielern (so wie ich es verstehe) zutiefst neue Ideen offenbart. Andere Motoren sind sehr aufgabenspezifisch, A0 scheint etwas anderes zu sein. Ich würde gerne sehen, wie es chess960 spielt.

fidge
quelle
1
Ich verstehe nicht, wie dies die Frage beantwortet.
SmallChess
-2

Ich glaube nicht, dass Alpha 'menschlich' ist. Es verwendete nur viel stärkere Hardware und spielte höherwertiges Schach. Die guten Eröffnungszüge, die es findet (zum Beispiel zur Seite des Fianchetto-Königs mit Lg2), sind vollständig auf sein simuliertes Eröffnungsbuch zurückzuführen. Konzepte, die mich beeindruckt haben und die ich in "Das Geheimnis des Schachs" formuliert habe: http://davidsmerdon.com/?p=1970 , die Alpha zum ersten Mal unter den Top-Motoren einsetzt, sind fortgeschrittene längere Ketten, zum Beispiel der d4 -e5-f6-Kette, die ein ganzes Stück im Bg6-Opferspiel übertrumpft, und zentrale Rückwärtsmacher, wie in den französischen Verteidigungsspielen zwischen beiden Motoren zu sehen. Bei beiden Konzepten geht es darum, bis in die Tiefe zu suchen, und wahrscheinlich wurde Alpha hier von seiner enormen Hardware unterstützt. Ansonsten sehe ich nichts Menschliches an seinem Spiel. Viele der Spiele waren zugegebenermaßen

Lyudmil Tsvetkov
quelle
5
Ihre beiden Aussagen sind falsch: 1) "Es wurde nur viel stärkere Hardware verwendet" - Ja, es wurde viel stärkere Hardware als bei Stockfish verwendet, aber das ist nicht der Unterschied. Es ist die ganz andere Software, die die starke Hardware erfordert. 2) "Die guten Eröffnungszüge, die es findet, sind vollständig auf sein simuliertes Eröffnungsbuch zurückzuführen." - Es werden keine Eröffnungsbücher verwendet.
IA Petr Harasimovic
Genau das macht den Unterschied: die exponentiell größere Alpha-Hardware. Jeder Schachtester weiß, dass das Verdoppeln der Geschwindigkeit die Schachstärke je nach Software um etwa 70 Elos erhöht. Der Unterschied zwischen 32 Kernen und 4TPUs (1000-2000 Kerne) beträgt ungefähr 6 Verdopplungen. Das würde 420 Elos ergeben. Tatsächlich ist Alpha bei gleichen Bedingungen um 300 Elos schwächer, obwohl es auf dieser Hardware 100 Elos stärker ist.
Lyudmil Tsvetkov
Es benutzt natürlich ein Eröffnungsbuch, egal was sie behaupten. Alpha wurde in Top-GM-Gewinnspielen geschult. Das wird sehr deutlich, wenn man Alphas Eröffnungsauswahl sieht: Genau die Eröffnungen, die die moderne Theorie empfiehlt, und genau die, bei denen die Gewinnchancen am besten sind. Mit Lg2 fianchettiert man nicht einfach so.
Lyudmil Tsvetkov
3
@Lyudmil, Google hat in Alpha Zero etwas Erstaunliches erreicht. Es brachte sich diese Bewegungen bei, indem es gegen sich selbst spielte und nur die Spielregeln kannte! Das Alpha Zero-Team des Betrugs zu beschuldigen, zeigt, dass Sie ihre Leistung oder Mission überhaupt nicht verstanden haben - sie treiben die Grenzen der KI voran und schlagen mit einer kleinen Geste alle vorhandenen Schachengines und menschlichen Talente in der Arbeit eines Nachmittags!
Segeln
1
@LyudmilTsvetkov Sie sind völlig falsch. Alpha Null (und dies ist der Punkt davon) trainiert wtihout jegliche menschliche Spiele. Es hat die Regeln erklärt und dann jeden Aspekt seines Spiels in vier Stunden von selbst erfunden, ohne irgendwelche neuen externen Daten.
Maverick