Kontinuierliche MDPs und Reinforcement Learning verstehen

8

Die meisten Einführungen in den Bereich MDPs und Reinforcement-Lernen konzentrieren sich ausschließlich auf Bereiche, in denen Raum- und Aktionsvariablen Ganzzahlen (und endlich) sind. Auf diese Weise werden wir schnell in Value Iteration, Q-Learning und dergleichen eingeführt.

Die interessantesten Anwendungen (z. B. fliegende Hubschrauber ) von RL und MDP umfassen jedoch kontinuierliche Zustandsräume und Aktionsräume. Ich möchte über die grundlegenden Einführungen hinausgehen und mich auf diese Fälle konzentrieren, bin mir aber nicht sicher, wie ich dahin komme.

Welche Bereiche muss ich kennen oder studieren, um diese Fälle eingehend zu verstehen?

CarrKnight
quelle

Antworten: