Ich habe gerade mit Sutton und Bartos Buch Reinforcement Learning: An Introduction begonnen und bin gespannt, wie ich über die Antwort auf Übung 1.1: Selbstspiel nachdenken soll . Angenommen, anstatt gegen einen zufälligen Gegner zu spielen, spielt der oben beschriebene Verstärkungslernalgorithmus gegen sich selbst. Was denkst du würde in diesem Fall passieren? Würde es eine andere Art zu spielen lernen?
Man könnte auch an die folgenden verwandten Unterfragen denken, aber sie haben meine Gedanken nicht klarer gemacht.
- Würde das Entfernen des zufälligen Teils des Lernens die Situation ändern - dh immer einer optimalen Politik folgen und nicht erforschen?
- Wie würde es davon abhängen, wer der erste Beweger ist?
Antworten:
Bei der ersten Frage bin ich mir nicht sicher. In Bezug auf die zweite sind dies meine Gedanken:
Wenn Sie über den Zustandsraum von Tic-Tac-Toe nachdenken, kann er in zwei sich gegenseitig ausschließende Teilmengen unterteilt werden, von denen eine aus Zuständen besteht, die der Agent beim ersten Spielen sieht, und der andere aus Zuständen, die beim zweiten Spielen angezeigt werden. Wenn eine der Seiten immer zuerst spielt, erfährt die andere Seite nur eine der beiden Teilmengen im Zustandsraum. Es würde versuchen, eine Politik zu lernen, die versuchen würde, als zweiter Spieler zu gewinnen.
Es wäre gut, wenn beide Mannschaften als erste und zweite Spieler spielen würden. Werfen Sie vor jedem Spiel eine Münze - wenn Sie Köpfe haben, lassen Sie die linke Seite zuerst spielen, sonst beginnt die rechte Seite. Auf diese Weise können wir zumindest sicherstellen, dass die Richtlinien des Agenten unabhängig davon sind, welche Seite zuerst startet.
quelle