Ich habe Schwierigkeiten, eine Erklärung dafür zu finden, warum Standard-Q-Learning dazu neigt, Q-Werte zu überschätzen (was durch die Verwendung von doppeltem Q-Learning behoben wird). Die einzigen Quellen, die ich gefunden habe, erklären nicht genau, warum diese Überschätzung auftritt. Zum...