Absolut, es ist ein wirklich interessantes Problem. Hier ist ein Artikel , in dem der Kritiker der politischen Akteure aufgeführt ist . Dies ist wichtig, da diese Methode auch kontinuierliche Aktionen unterstützen kann.
Die allgemeine Idee von Algorithmen außerhalb der Richtlinie besteht darin, die von einer Verhaltensrichtlinie (die tatsächlich in der Welt handelt) ausgeführten Aktionen mit den Aktionen zu vergleichen, die die Zielrichtlinie (die Richtlinie, die wir lernen möchten) ausgewählt hätte. Mit diesem Vergleich können wir ein Verhältnis bestimmen (0 ≤ ρ ≤ 1), die die Aktualisierung der Zielrichtlinie anhand der Wahrscheinlichkeit skalieren kann, mit der die Zielrichtlinie diese Aktion ausführt. Ein höheresρJe ähnlicher die beiden Richtlinien sind, desto größer ist die Größe der Lernaktualisierung für die Zielrichtlinie für diesen Schritt. EINρ von 0und das Update wird ignoriert.