Diese Frage ist ein Ableger von Ramon Snirs früherer Frage, wie oft verschiedene Arten von Figuren durchschnittlich in einer Schachpartie bewegt werden. Meine Frage:
Unterscheiden sich die relativen Zahlen der Züge für die gegebenen Arten von Steinen, wenn man die Spiele der stärkeren Spieler im Gegensatz zu den Spielen der schwächeren Spieler betrachtet? (Zum Beispiel neigen die schwächeren Spieler dazu, mehr Bauernzüge auf Kosten von Steinzügen zu machen, oder sie machen zu viele Königinnenzüge. Ich weiß nicht.)
Ich konnte die frühere Frage anhand von Rohdaten beantworten, die von jemand anderem aus einer großen Datenbank extrahiert wurden . Diese Daten stammten aus einer Stichprobe von über 4 Millionen Spielen, die vom Großmeisterspiel bis zum schwachen Amateurspiel reichten, und die Gesamtzahlen für die dort angegebenen Bewegungssummen unterscheiden sich nicht nach der Stärke der Spieler. Für die Beantwortung meiner Frage sind separate Daten für Spiele zwischen starken Spielern und Spiele zwischen schwachen Spielern erforderlich. Ich suche nach Antworten, die auf Daten und nicht auf Anekdoten basieren .
Hier ist eine spezifischere Form meiner Frage:
Gibt es eine Elo-Bewertungsschwelle N, bei der die durchschnittliche Anzahl von Zügen in einem Spiel nach Art der Spielfiguren aufgeschlüsselt ist, gibt es einen signifikanten Unterschied zwischen dem, was man in Spielen mit Spielern über N findet, und dem, was man in Spielen findet mit Spielern unter N.
Es wäre interessant, wenn auch mehr davon gefunden werden könnten, dh konkrete Unterschiede zwischen stärkeren und schwächeren Akteuren, die durch Data Mining erkannt werden können. Solche Erkenntnisse könnten auf bestimmte Verhaltensweisen hinweisen, die die Spieler zurückhalten, oder umgekehrt auf Verhaltensweisen, die sie vorwärts treiben. Vielleicht gibt es keine derartigen Unterschiede, wenn man sich nur diese Art von Daten ansieht, aber das würde mich auch interessieren.
Antworten:
Hier ist eine kurze Analyse, die auf der "Million Base" -PGN-Datenbank basiert. Ich habe das ein bisschen eilig gemacht, daher kann es durchaus zu Fehlern in meiner Programmierung oder Logik kommen. Bitte benutzen Sie es nicht für etwas zu ernstes. Update - Hinweis: Eigentlich ist mir gerade aufgefallen, dass ich einen Fehler mit dem Datensatz gemacht und ihn auf die ersten 1 Million Datensätze beschränkt habe. Ich werde ein Update veröffentlichen, wenn ich etwas Zeit habe, um es wieder vollständig auszuführen. In der Zwischenzeit sollten diese Zahlen dennoch interessant sein.
Beziehen der Daten:
Ich habe die Million Base 1.74-Datei von dieser URL erhalten , da die top-5000.nl-Site 404 zu sein scheint, wenn Sie tatsächlich versuchen, sie herunterzuladen. Die Datei enthält etwas mehr als 1 Million Spiele im PGN-Exportformat (dh einfach zu analysieren).
Leider fehlten mehr als 60% der Spiele Bewertungsinformationen (ich suchte nach "WhiteELO" - und "BlackELO" -Tags), und noch weniger hatten Bewertungen für beide Spieler. Am Ende entschied ich mich für eine möglichst große Stichprobe und zählte die Züge eines Spielers, wenn seine Bewertung bekannt war, unabhängig von der Bewertung des anderen Spielers.
Verarbeiten:
Die Spiele wurden nacheinander analysiert, und wenn die Bewertung eines Spielers bekannt war, wurden alle seine Züge für dieses Spiel zum Aggregat für die Bewertungsgruppe des Spielers hinzugefügt. Ich habe mich entschieden, die Bewertungen in Gruppen von 100 zu unterteilen, also waren zB 1600 bis 1699 eine einzelne Gruppe.
Da der aktuelle Movetext in PGN SAN ist, habe ich die folgenden Abkürzungen verwendet, um die Züge zu zählen: Ritter (N), Bischof (B), Turm (R), Dame (Q) und König (K). Alle Züge beginnen mit dem Buchstaben ihres Stücks . Castling (OO und OOO) wurde als Sonderfall gesondert gezählt. Alle verbleibenden Züge wurden ohne weitere Prüfung als Bauernzüge gezählt.
Es wurde keine Datenbereinigung durchgeführt. Es wurde nicht versucht, Ausreißer zu identifizieren und zu entfernen (z. B. übermäßig kurze und lange Spiele usw.). Ich behielt die Ergebnisse von Bewertungen unter 1600 bei, bezog sie jedoch nicht in die folgende Analyse ein - die Stichprobengröße für diese Spiele lag deutlich unter 100, was zu großen Abweichungen bei den Ergebnissen führte. Die Rohdaten finden Sie am Ende dieses Beitrags.
Einige Unzulänglichkeiten der Informationen: Im Moment habe ich nur sehr einfache Summen gesammelt und Durchschnittswerte angegeben. Ich bin mir ziemlich sicher, dass die Daten im Allgemeinen NICHT normal verteilt sind, aber nicht in der Lage sind, mehr zu sagen, ohne die Rohzählungen tatsächlich auszugeben und sie durch ein statistisches Programm zu führen. Ich kann das tun, wenn Interesse besteht. Im Moment bedeutet dies keine Konfidenzintervalle oder andere Informationen über die Verteilung der Zahlen, die diese Durchschnittswerte darstellen. Ich habe auch nicht überprüft, wie viele Jahre der Datensatz umfasst. Wenn er viele Jahre umfasst, kann es hilfreich sein, die Gesamtstärke des Feldes zu korrigieren.
Einige Trends:
Ein Wort zu den Spielerbewertungen - die am häufigsten angetroffenen Bewertungsgruppen waren in der Reihenfolge 2400 bis 2500, 2500 bis 2600 und 2300 bis 2400. Diese Bewertungsgruppen lieferten 72% der gezählten Spiele.
Angesichts der tatsächlichen Ergebnisse war die durchschnittliche Spieldauer eine kleine Überraschung:
Die Sub-2000-Bewertungsgruppen hatten alle signifikant kürzere Spiele als die höheren Gruppen. Dies kann durchaus damit erklärt werden, dass sie gegen stärkere Gegner gespielt haben (siehe Durchschnittsbewertung oben) und in weniger Zügen besiegt wurden. Dies scheint im Gegensatz zu den etwas kürzeren Spielen der Spitzengruppe zu stehen, obwohl dies möglicherweise zu einer geringeren Stichprobengröße beiträgt.
Die relativ großen Unterschiede in der durchschnittlichen Spieldauer haben dazu geführt, dass die Häufigkeit des Bewegens einer bestimmten Figur und nicht die Gesamtanzahl der Bewegungen einer Figur möglicherweise den faireren Vergleich darstellt. Die Berechnung der Frequenzen ergibt die folgende Grafik:
Folgende Trends scheinen vorhanden zu sein:
Weitere Analyse
Einige Ideen für zukünftige Analysen:
Aggregierte Daten im CSV-Format
Für diejenigen, die mit den Daten spielen möchten, fühlen Sie sich frei.
Bewertungsbereich, Stichprobengröße, durchschnittliche Spieldauer, durchschnittliche Bauernbewegungen, durchschnittliche Ritterbewegungen, durchschnittliche Bischofsbewegungen, durchschnittliche Turmbewegungen, durchschnittliche Königinbewegungen, durchschnittliche Königsbewegungen, durchschnittliche Rochade
quelle