Ich habe eine möglicherweise naive Frage zu AlphaZero. Ich habe es als "menschlicher" beschrieben gesehen als andere Computer, aber was auch immer es tut, es gewinnt ungefähr 100 ELO-Punkte, indem es es tut. Kasparov und viele andere haben behauptet, dass ein starker Mensch in Zusammenarbeit mit einem Computer einen starken Computer schlagen wird (vielleicht um etwa 100 ELO ??). Eine naheliegende Frage ist also, wie sich AlphaZero mit einer "Zentauren" -Kombination vergleichen lässt.
Nachdem ich mir nur ein paar Spiele angesehen habe, stelle ich fest, dass die meisten Computer offene Spiele spielen, die ihre eigene Mobilität maximieren, aber AlphaZero scheint sehr darum bemüht zu sein, die Mobilität des Gegners einzuschränken. In einem menschlichen Spieler würde ich dies als eine Frage des Stils beschreiben, nicht mehr oder weniger menschlich.
Antworten:
Seite 5 in der Zeitung hat Ihre Antwort:
"selektiv" ist das Schlüsselwort. Was bedeutet das? Verwenden wir diese folgende Position für unser Beispiel:
Dies ist ein aktuelles Spiel, das Caruana 2017 in London Chess Classic gewonnen hat. Der weiße Bischof ist unterangegriffen, und Sie wissen, dass Sie ihn bewegen müssen. Aber wo?
Möglichkeiten (kein Stück zu verlieren):
Was dachte Caruana?
Das ist menschliches Denken und ein "menschlicher Schachzug". Caruana hatte Bh4, Be3 und Bd2 nicht in Betracht gezogen, weil sie schlecht aussahen. Er hatte sich nur und nur auf die Lc1-Bewegung konzentriert.
Menschen spielen sehr selektiv Schach , wir verwerfen unvernünftige Züge, weil wir nicht die Zeit haben, alle Möglichkeiten gleichermaßen zu prüfen.
Das ist, was AlphaZero in der Zeitung zu behaupten versucht. Sie behaupten, dass ihr Algorithmus, obwohl er langsamer als Stockfish ist, bei der Suche selektiv bessere Züge als Stockfish auswählen kann . Stockfisch ist zwar schneller, verschwendet aber Zeit bei schlechten Bewegungen. AlphaZero ist langsamer, aber genauer (wie Caruana es tat).
Zum Beispiel könnte AlphaZero 80% Ressourcen für Bc1 und 20% für alle anderen Bischofszüge ausgeben. Stockfisch kann 25% für jeden Zug geben (Bh4, Be3, Bd2, Bc1).
quelle
Die meisten starken Motoren legen großen Wert darauf, sehr genau hinzuschauen, auf Kosten einer oberflächlichen Bewertungsfunktion. In der AlphaZero-Zeitung heißt es, Stockfish betrachte 70 Millionen Positionen pro Sekunde.
Menschliche Großmeister sehen zwar nur sehr wenige Positionen im Vergleich zu Motoren, aber sie haben ein besseres Gefühl, wer in einer bestimmten Position besser ist.
AlphaZero betrachtete nur 80.000 Positionen pro Sekunde und verbringt daher viel mehr Zeit mit seiner Auswertungsfunktion.
In diesem Sinne bedeuteten sie "menschlicher", nicht mehr.
quelle
AlphaZero scheint bereits wie ein normaler "Zentaur" -> Korrespondenz-GM mit einer Motorunterstützung zu spielen.
Als FM würde ich viel mehr Spaß daran haben, AlphaZero gegen eine normale Engine zu spielen.
Ein Vergleich wäre, dass es so spielt wie Karpov mit perfekter Taktik. (Spiel 9 AlphaZero spielt eine Figur für 15 Züge aus, was sehr nach Tal aussieht).
Es ist nicht nur Stil, AlphaZero vermittelt den Eindruck, Positionen besser zu verstehen als Stockfish.
AlphaZero leidet auch nicht unter dem Horizon-Effekt, unter dem ALLE Schachengines bisher gelitten hatten. Immer wieder ist es möglich, eine Position korrekt einzuschätzen, die sich weiter nach unten bewegt als Stockfish.
Hier ist ein Beispiel:
AlphaZero spielt den König um 16 zu zentrieren. Kxd2! in einem mittleren Spiel richtig beurteilen, dass Schwarz nicht in der Lage sein wird, einen Vorteil daraus zu ziehen.
Es ist in der Lage, ein Stück Opfer 30 korrekt zu bewerten. Lxg6! Während normale Motoren nicht erkennen können, dass sie für eine Reihe von Zügen verloren gegangen sind.
Es gibt noch andere Beispiele wie das Tauschopfer in Spiel 3.
quelle
Es ist so einfach, auf einen Zug zu springen, wenn man sagt, Alpha-Zeros Spiel sei menschlicher als frühere Computerschachprogramme, als wenn man auf den anderen Zug springt und sagt, Alpha-Zeros Spiel sei völlig "fremd". Es ist nicht klar, dass Alpha-Zero 'menschlicher' ist, insbesondere angesichts unserer menschlichen Tendenz zum Anthropomorphismus.
Schach als Kampf des (menschlichen) Geistes
Aber stimmt diese Tendenz im Schach? Magnus Carlsen hat einmal darüber gesprochen, wie „traditionellen“ Computern im Allgemeinen die menschliche Kreativität fehlt.
Magnus Carlsen konnte in traditionellen Schachcomputern keine menschlichen Spielstile nachweisen. Untersuchen wir also, ob Alpha-Zeros jüngste Errungenschaft diese Perspektive zunichte gemacht und uns zu etwas bewegt hat, das mehr an uns selbst erinnert.
Der Schöpfer des Algorithmus zeigen , dass im Gegensatz zu Stockfisch , die einen Alpha-Beta - Suchalgorithmus verwendet, Alpha-Zero verwendet eine Algorithmus Monte-Carlo Baumsuche (MCTS) , die als Eingabe akzeptiert ein gewichtete Parameter ^ von früheren Ergebnissen ~ aufgebaute Seite 3. Mastering Schach und Shogi durch Selbstspiel mit einem allgemeinen Verstärkungslernalgorithmus ).
Der Algorithmus weist also überhaupt keine Auswahl auf. Tatsächlich wird eine zufällige, aber probabilistische Monty-Carlo-Suche durchgeführt, bei der die verfügbaren Suchpfade zunehmend durch frühere Ergebnisse beeinträchtigt werden. Hat Alpha-Zero beschlossen, seinen Spielstil auf diese Weise zu optimieren, oder war das die Wahl seiner Programmierer?
Anfänglich standen ihm alle Moves zur Verfügung, so dass sein "Stil" völlig zufällig war. Da die Suche jedoch durch früheren Erfolg oder Misserfolg zunehmend und optimal eingeschränkt wird, ändert sich ihr Stil tatsächlich in Richtung des Modus, mit dem sie von den Programmierern gefesselt wurde. Ist das aber "menschlicher"? Vergleichen Sie dies mit Magnus Carlesen, der manchmal weniger optimale Züge wählt, weil er kreativer ist :
Schach als Kampf des (fremden) Geistes
Menschen können die Kriterien auswählen, die ihren eigenen Spielstil bestimmen (zum Beispiel habe ich oft Impuls und Fehler in meinem eigenen Stil gewählt). Viele sehen Alpha-Zero in beiden Schachpartien und gehen als entschieden Alien . Nick Hynes, ein Student am MIT-Labor für Informatik und künstliche Intelligenz (CSAIL), stellt fest:
Ebenso sagte GM Peter Heine Nielsen gegenüber Chess.com :
Es scheint, dass die meisten auf Alpha-Zero's aufkommenden Spielstil als "Alien-Spiel" und nicht als "menschlicher" reagieren.
quelle
Dies ist eine unglaublich interessante Zeit, um am Leben zu sein.
Ab den 1970er Jahren waren Schachcomputer Minimax-Baum-basierte Suchalgorithmen mit Alpha-Beta-Bereinigung. Diese Programme wurden sowohl aufgrund von Fortschritten bei der Computergeschwindigkeit und -parallelität als auch aufgrund von Verbesserungen bei der heuristischen Bewertungsfunktion, die zum Beschneiden von Zweigen und zum Auswählen von Blattknoten verwendet wurde, immer stärker. Aber die Leute haben längst gemerkt, wie materialistisch und langweilig das Computerspiel ist, und viele Leute (ich selbst eingeschlossen) hielten es für unmöglich, "menschliche" Intuition in Software zu codieren.
Aber hast du diese Spiele gesehen?
AlphaZero zeigt ein unglaublich schönes Spiel, einschließlich mehrerer Beispiele für Materialopfer, um einen langfristigen Positionsvorteil zu erzielen. Dies erinnert an einige der schönsten Spiele menschlicher Meister, aber auch mit unerreichter technischer Genauigkeit. Dies ist das erste Beispiel, das ich in meinem Leben von etwas gesehen habe, das computergeneriert ist und auch eine tiefe Schönheit hat .
Die Centaur Behauptung:
Ich habe Garry so oft sagen hören, aber es ist einfach nicht wahr. Zumindest wird es mit AlphaZero auf der Bühne nicht mehr wahr sein.
Stellen Sie sich Folgendes vor: Es gibt einen Stücksack mit 10.000 relevanten Fortsetzungen, von denen 5.000 rein taktisch sind (und dennoch größtenteils nichts miteinander zu tun haben) und 5.000 größtenteils positionsbezogen sind (und doch größtenteils nichts miteinander zu tun haben). Wie könnte ein Mensch all diese Variationen durchsehen, ohne einen Fehler zu machen? Wenn AlphaZero nun diese hochkreativen Bewegungen betrachten kann, welchen Beitrag könnte ein Mensch möglicherweise leisten?
Die letzte Grenze:
Es gibt noch einen Ort, an dem die Brute-Berechnung immer noch tiefe neuronale Netze schlägt: Endspiele. Es gibt keine Intuition, die eine Tischbasis übertrifft. Die Endungen, die eine Tabellenbasis erfordern (weil ein Suchbaum nicht tief genug sein kann, um nur den richtigen Zug zu berechnen), sind jedoch ziemlich selten. Und Sie könnten einfach eine Tischbasis in AlphaZero einstecken, aber das würde die Reinheit einer "Autodidakt" -Engine zerstören, oder?
quelle
Da Menschen nicht in der Lage sind, tief zu suchen, wie dies bei herkömmlichen Computerschachprogrammen (fritz, stockfish et al.) Der Fall ist, erstellen sie „strategische Prinzipien“ oder Daumenregeln (Zentralkontrolle, Entwicklung, Königssicherheit) und Konzepte oder Tricks, die in den unterschiedlichsten Bereichen anwendbar sind Situationen auf verschiedene Arten, wie Opfer, verbundene Türme, Läuferpaar, bestimmte Enden, z. B. wie man den König mit einem Turm und einem Bauern in die Enge treibt.
Ich denke, Alpha Zero hat viele solcher Konzepte (Wahrnehmungen und Konzepte) unabhängig voneinander neu erfunden und auch Unmengen neuer Konzepte gelernt - weil sein Wissen nicht auf menschlichen Bewertungsfunktionen aufbauen musste und die starke Minmax-Suche, die immer davon ausgeht, dass der Gegner a ist Genius.
Selbstverständlich widersprechen sich solche Prinzipien in manchen Situationen, weshalb verschiedene Eröffnungsspiele und Fallstricke sorgfältig untersucht werden - z. B. nicht zu früh zur Königin werden.
Andererseits bemerken die Menschen auch, dass Sie, sobald Sie ein Teil verlieren (ohne Austausch), Ihre Streitkräfte schwächen, sodass sie äußerst vorsichtig sind, kein Teil ohne Ausgleich zu verlieren.
Ich denke, dass Alphazeros Spiel das Computerschach (und das menschliche Schach) von der sklavischen Angst befreit hat, kleines Material zu verlieren und übermäßig auf das Öffnen von Büchern und Stückwerten angewiesen zu sein.
Alphazero-Spiele zeigen, dass Dinge wie die „strategischen Prinzipien“ wie Zentrumskontrolle, Entwicklung, Raum, Initiative viel wichtiger sind, wenn Ihr Gegner schlampig ist. Mit anderen Worten, 'opfern' ist nicht wirklich opfern, sondern ein Stück gegen einen Gewinn an Initiative, Position und gezielter Bewegung eintauschen.
Alphago (nicht die Null) stützte sich auf die menschliche Bewertung, aber Alphazero richtet die gesamte Bewertungskette auf "Suche oder Simulation" als einen einzigen End-to-End-Prozess ein und bietet eine völlig neue Spielweise.
Wenn Sie darüber nachdenken, wurden große Meister der Vergangenheit wie Morphy, Fischer, Kasparov für diese Art von - kontraintuitivem - Spiel gelobt, bei dem sie nicht an eine Bewertung auf Stein gebunden sind, indem sie besondere Situationen ausnutzen, die sie ausnutzen entstehen. Ich denke, Alpha-Zero-Spiele haben einen solchen "Wow" -Faktor.
Warum neuronale Netze? Während Computerprogramme, die symbolische Repräsentation und diskrete Suche verwenden, nur eine Art des Denkens verwenden können, können neuronale Netze Situationen mit abwechselnden, widersprüchlichen Bewertungen parallel verarbeiten und in späteren Schichten zur wertvolleren Ansicht wechseln.
quelle
Menschlicher in dem Sinne, dass die Bewegungen, die es spielt, mehr oder weniger mit einer menschlichen Herangehensweise zusammenfallen: Spielen zum langfristigen Vorteil, Positionsopfer, Stückaktivität. Es gibt eine offensichtliche Konvergenz mit menschlichem Schachwissen und akzeptierten strategischen Prinzipien, die im Laufe der Jahrhunderte verfeinert wurden (z. B. hat es viele gleiche Öffnungen "entdeckt"). Dies ist insofern bemerkenswert, als AlphaZero nicht mit von Menschen konstruiertem Schachwissen besetzt ist.
Aber die Ähnlichkeiten enden hier. AlphaZero bringt es auf die nächste Ebene und macht es besser und auf eine Weise, die Menschen noch nie erdacht haben. AlphaZero verfügt über "übermenschliche" Fähigkeiten, um das Papier zu zitieren: "AlphaZero hat ein übermenschliches Spielniveau erreicht [...]" ( https://arxiv.org/pdf/1712.01815.pdf ). Außerdem hat es nicht die Schwächen, die den Menschen innewohnen: Konzentrationsprobleme, Angst, Müdigkeit, Gefühle, Intuition usw., die den Menschen einschränken. Und sein Silizium-Gehirn ermöglicht bei Bedarf taktische Kombinationen, die über die menschlichen Fähigkeiten hinausgehen.
quelle
Ich möchte mich bei allen bedanken, die auf diese Frage geantwortet haben, oftmals mit Feinheit und Einsicht. Der Hauptunterschied in den Antworten scheint mir in der Interpretation des Wortes Mensch zu liegen.
AlphaZero spielt kein menschliches Schach im Sinne von Versehen und Fehleinschätzungen, aber sein "Gedanken" -Prozess scheint in einer erhöhten Form zu entsprechen, wie ich denke, dass die meisten starken Spieler denken. Sie erstellen ziemlich schnell eine Liste von "Kandidatenzügen", die Sie spielen möchten, und für die stärksten Spieler ist diese Liste erstaunlich genau und spielt sogar so etwas wie ein erkennbar vernünftiges Spiel in einer Minute. Der Rest der Zeit wird damit verbracht zu fragen, welche der Bewegungen auf dieser Liste wirklich funktionieren. Petrosian sagte, dass er sich am besten in Form fühle, wenn der Zug, den er schließlich spielte, der war, an den er zuerst dachte. Wir alle wissen, wie befriedigend es ist, wenn sich herausstellt, dass der Zug, den wir am liebsten spielen wollten, taktisch spielbar ist. Ich kann mich viel einfacher auf den AlphaZero-Algorithmus beziehen als auf die AlphaBeta-Suche.
Am interessantesten erscheint, wie die Maschine die vielversprechenden Kandidaten im Alleingang erkennen konnte. Hier liegt das Potenzial für eine echte Revolution. Ich frage mich, ob dies nur für Bereiche wie Schach und Go möglich ist, in denen die Ziele klar definiert werden können. Aber ich finde es auffällig, dass AlphaZero zielgerichtet zu spielen scheint, aber Stockfish hat keine Ahnung, was los ist.
quelle
So wie ich neuronale Netze verstehe, liegt der wahre Vorteil von A0 in der überlegenen Bewertung der Board-Positionen. Diese Bewertung umfasst sowohl kurzfristiges taktisches Wissen (das in gewissem Sinne als Multiplikator für die Anzahl der untersuchten Positionen dient) als auch eine überlegene Bewertung des strategischen Werts.
quelle
Ich habe das Gefühl, dass die ganze Diskussion versäumt hat, dass A0 Schach, Shogi und Go spielen kann, alles sehr gut und alles aus dem Selbsttraining. Das ist viel menschlicher. Darüber hinaus hat es den Top-Spielern (so wie ich es verstehe) zutiefst neue Ideen offenbart. Andere Motoren sind sehr aufgabenspezifisch, A0 scheint etwas anderes zu sein. Ich würde gerne sehen, wie es chess960 spielt.
quelle
Ich glaube nicht, dass Alpha 'menschlich' ist. Es verwendete nur viel stärkere Hardware und spielte höherwertiges Schach. Die guten Eröffnungszüge, die es findet (zum Beispiel zur Seite des Fianchetto-Königs mit Lg2), sind vollständig auf sein simuliertes Eröffnungsbuch zurückzuführen. Konzepte, die mich beeindruckt haben und die ich in "Das Geheimnis des Schachs" formuliert habe: http://davidsmerdon.com/?p=1970 , die Alpha zum ersten Mal unter den Top-Motoren einsetzt, sind fortgeschrittene längere Ketten, zum Beispiel der d4 -e5-f6-Kette, die ein ganzes Stück im Bg6-Opferspiel übertrumpft, und zentrale Rückwärtsmacher, wie in den französischen Verteidigungsspielen zwischen beiden Motoren zu sehen. Bei beiden Konzepten geht es darum, bis in die Tiefe zu suchen, und wahrscheinlich wurde Alpha hier von seiner enormen Hardware unterstützt. Ansonsten sehe ich nichts Menschliches an seinem Spiel. Viele der Spiele waren zugegebenermaßen
quelle