Dies ist aus einem Artikel 'Algorithmen für inverses Verstärkungslernen' von Ng, Russell (2001)
Wir gehen davon aus, dass wir in der Lage sind, Trajektorien im MDP (ab dem Anfangszustand ) unter der optimalen Richtlinie oder unter einer Richtlinie unserer Wahl zu simulieren . Für jede Richtlinie , die wir berücksichtigen werden (einschließlich der optimalen), benötigen wir eine Methode zum Schätzen von für jede Einstellung der 's. Dazu führen wir zunächst Trajektorien unter .
Entschuldigung für das lange Zitat. Was bedeutet "Monte Carlo" im letzten Satz?
Mein erster Gedanke wäre, die Simulation immer wieder mal auszuführen . Aber wenn ich es überdenke, könnte ich mich sehr irren.