Was ist der Unterschied zwischen Wertiteration und Richtlinieniteration?

Was ist der Unterschied zwischen Richtlinieniteration und Wertiteration beim verstärkten Lernen ? Soweit ich weiß, verwenden Sie bei der Wertiteration die Bellman-Gleichung, um die optimale Richtlinie zu ermitteln, während Sie bei der Richtlinieniteration zufällig eine Richtlinie π auswählen...