Schauspieler-Kritiker-Verlustfunktion beim verstärkten Lernen

Ich verstehe, dass Sie beim Lernen von Schauspieler-Kritiker zum Lernen der Verstärkung einen "Schauspieler" haben, der über die zu treffenden Maßnahmen entscheidet, und einen "Kritiker", der diese Maßnahmen dann bewertet. Ich bin jedoch verwirrt darüber, was die Verlustfunktion tatsächlich aussagt...