Kontinuierliche MDPs und Reinforcement Learning verstehen

Die meisten Einführungen in den Bereich MDPs und Reinforcement-Lernen konzentrieren sich ausschließlich auf Bereiche, in denen Raum- und Aktionsvariablen Ganzzahlen (und endlich) sind. Auf diese Weise werden wir schnell in Value Iteration, Q-Learning und dergleichen eingeführt.

Die interessantesten Anwendungen (z. B. fliegende Hubschrauber ) von RL und MDP umfassen jedoch kontinuierliche Zustandsräume und Aktionsräume. Ich möchte über die grundlegenden Einführungen hinausgehen und mich auf diese Fälle konzentrieren, bin mir aber nicht sicher, wie ich dahin komme.

Welche Bereiche muss ich kennen oder studieren, um diese Fälle eingehend zu verstehen?

research reinforcement-learning control-problem CarrKnight
quelle

Antworten:

In meinem Dissertationsvorschlag gibt es eine kleine Übersicht über kontinuierliche Zustände, Aktionen und Zeit beim Lernen zur Stärkung .

In Bezug auf Bücher scheint Reinforcement Learning: State-of-the-Art aus den Auszügen, die ich gelesen habe, ziemlich aktuell zu sein.

rcpinto
quelle