Ich verstehe, dass wir in der Wert-Funktions-Näherung, insbesondere beim tiefen Q-Lernen, zuerst die Q-Werte für jede Aktion vorhersagen. Wenn es jedoch viele Aktionen gibt, ist diese Aufgabe nicht einfach. Bei der Richtlinieniteration müssen wir jedoch auch einen Softmax-Vektor ausgeben, der sich...