SARSA und Q Learning sind beide Verstärkungslernalgorithmen, die auf ähnliche Weise funktionieren. Der auffälligste Unterschied ist, dass SARSA in der Politik ist, während Q Learning nicht in der Politik ist. Die Update-Regeln lauten wie folgt: Q Lernen: Q ( st, eint) ← Q ( st, eint) + α [ rt + 1+...