Ich möchte eine KI erstellen, die Five-in-A-Row / Gomoku spielen kann. Wie ich bereits im Titel erwähnt habe, möchte ich dafür das verstärkende Lernen verwenden. Ich verwende die Policy-Gradient- Methode, nämlich REINFORCE, mit Baseline. Für die Näherung von Wert und Richtlinienfunktion verwende...
20
Wie gehe ich mit ungültigen Zügen beim Lernen um?