Bedeutung von 'Monte Carlo' in diesem Satz

7

Dies ist aus einem Artikel 'Algorithmen für inverses Verstärkungslernen' von Ng, Russell (2001)

Wir gehen davon aus, dass wir in der Lage sind, Trajektorien im MDP (ab dem Anfangszustand ) unter der optimalen Richtlinie oder unter einer Richtlinie unserer Wahl zu simulieren . Für jede Richtlinie , die wir berücksichtigen werden (einschließlich der optimalen), benötigen wir eine Methode zum Schätzen von für jede Einstellung der 's. Dazu führen wir zunächst Trajektorien unter .s0πVπ(s0)αim Monte Carlo_π

Entschuldigung für das lange Zitat. Was bedeutet "Monte Carlo" im letzten Satz?

Mein erster Gedanke wäre, die Simulation immer wieder mal auszuführen . Aber wenn ich es überdenke, könnte ich mich sehr irren.m

cgo
quelle

Antworten:

10

Was Ng und Russell zu sagen scheinen, ist, dass sie für jede Richtlinie "mögliche" Ergebnisse für Prozesse simulieren , die bei Punkt . Mit "Trajektorien" scheinen sie die möglichen zeitlichen Entwicklungen simulierter Prozesse zu meinen - verschiedene mögliche Szenarien, die durch Simulation erzeugt werden. Sie hatten also Recht, Monte Carlo steht hier für "Simulation" (siehe auch diesen Thread ).πms0

Tim
quelle
0

Monte Carlo bedeutet hier einfach, Stichproben zu verwenden, um die Werte zu schätzen. Praktisch bedeutet dies, eine Folge von (Zustands-, Aktions-) Paaren zu sammeln, dh die Flugbahn unter Verwendung einer beliebigen Richtlinie, und daraus können Sie relevante Größen wie Vusw. Berechnen

Makokal
quelle