In der Mathematik, das Wort Operator kann auf mehrere unterschiedliche , aber verwandte Begriffe beziehen. Ein Operator kann als eine Funktion zwischen zwei Vektorräumen definiert werden, er kann als eine Funktion definiert werden, bei der die Domäne und die Codomäne gleich sind, oder er kann als eine Funktion von Funktionen (die Vektoren sind) zu anderen Funktionen (z Beispiel: der Differentialoperator ), dh eine Funktion höherer Ordnung (wenn Sie mit der funktionalen Programmierung vertraut sind).
Was ist der Bellman-Operator beim Verstärkungslernen (RL)? Warum brauchen wir es überhaupt? Wie hängt der Bellman-Operator mit den Bellman-Gleichungen in RL zusammen?
Antworten:
Die Notation, die ich verwenden werde, stammt aus zwei verschiedenen Vorträgen von David Silver und wird auch durch diese Folien informiert .
Die erwartete Bellman-Gleichung lautetvπ(s)=∑a∈Aπ(a|s)(Ras+γ∑s′∈SPass′vπ(s′))(1)
Wenn wir und dann können wir umschreiben alsPπss′=∑a∈Aπ(a|s)Pass′(2) Rπs=∑a∈Aπ(a|s)Ras(3) (1)
Dies kann in Matrixform geschrieben werden
Oder kompakter:
Beachten Sie, dass beide Seiten sind - dimensionale Vektoren. Hier istist die Größe des Zustandsraums. Wir können dann einen Operator als definieren(6) n n=|S| Tπ:Rn→Rn
für jedes . Dies ist der erwartete Bellman-Betreiber.v∈Rn
Ebenso können Sie die Bellman-Optimalitätsgleichung neu schreiben
als Bellman-Optimalitätsoperator
Die Bellman-Operatoren sind "Operatoren", da sie Abbildungen von einem Punkt zum anderen innerhalb des Vektorraums der Zustandswerte .Rn
Das Umschreiben der Bellman-Gleichungen als Operatoren ist nützlich, um zu beweisen, dass bestimmte dynamische Programmieralgorithmen (z. B. Richtlinieniteration, Wertiteration) zu einem eindeutigen Fixpunkt konvergieren. Diese Nützlichkeit ergibt sich aus einer Reihe bestehender Arbeiten in der Operatortheorie, die es uns ermöglichen, spezielle Eigenschaften der Bellman-Operatoren zu nutzen.
Insbesondere die Tatsache, dass die Bellman-Operatoren Kontraktionen sind, liefert die nützlichen Ergebnisse, dass für jede Richtlinie und jeden Anfangsvektor ,π v
Dabei ist der Wert der Richtlinie und der Wert einer optimalen Richtlinie . Der Beweis beruht auf dem Satz der Kontraktionsabbildung .vπ π v∗ π∗
quelle