Unser Ziel beim Bestärkungslernen ist es, die Zustandswertfunktion oder die Aktionswertfunktion zu optimieren, die wie folgt definiert sind:
Wenn wir jedoch die Q-Learning-Methode verwenden, um die optimale Strategie zu erhalten, sieht die Aktualisierungsmethode wie folgt aus:
Meine Frage ist:
warum gibt es beim Q-Learning keine Übergangswahrscheinlichkeit . Bedeutet das, dass wir dieses bei der Modellierung von MDP nicht benötigen ?
Aus Gründen der Klarheit denke ich, dass Sie durch m a x a ( Q ( S ' , a ) ) ersetzen sollten, da es nur eine Aktionswertfunktion gibt. Wir bewerten nur Q für Aktionen in der nächste Zustand. Diese Notation weist auch darauf hin, wo das p ( s ' | s , a ) liegt.m a xein( Q.', A ) m a xein( Q ( S.', a ) ) p ( s'| s,a)
Intuitiv ist eine Eigenschaft der Umgebung. Wir kontrollieren nicht, wie es funktioniert, sondern probieren es einfach aus. Bevor wir dieses Update aufrufen, müssen wir zuerst eine Aktion A in Status S ausführen. Der Vorgang dazu gibt uns eine Belohnung und schickt uns in den nächsten Status. Der nächste Zustand, in dem Sie landen, wird per Definition aus p ( s ′ | s , a ) gezogen . Im Q-Learning-Update nehmen wir also im Wesentlichen an, dass p ( s ' | s , a ) 1 ist, weil wir dort gelandet sind.p ( s'| s,a) p ( s'| s,a) p ( s'| s,a)
Dies ist in Ordnung, da es sich um eine iterative Methode handelt, bei der die optimale Aktionswertfunktion geschätzt wird, ohne die vollständige Dynamik der Umgebung und insbesondere den Wert von . Wenn Sie zufällig ein Modell der Umgebung haben, das Ihnen diese Informationen liefert, können Sie das Update ändern, um es einzuschließen, indem Sie einfach die Rückkehr zu γ p ( S ' | S , A ) m a x a ( Q ( S ' , a ) ändern ) ) .p ( s | s', A ) γp ( S.'| S., A ) m a xein( Q ( S.', a ) )
quelle
SARSA
oderQ-learning
) Sie im Umgang mit verschiedenen Situationen anwenden sollten? Vielen Dank.Darüber hinaus ist Q-Learning ein modellfreier Algorithmus, dh unser Agent kennt nur die Zustände, die die Umgebung ihm gibt. Mit anderen Worten, wenn ein Agent eine Aktion auswählt und ausführt, wird der nächste Status nur von der Umgebung bestimmt und an den Agenten weitergegeben. Aus diesem Grund denkt der Agent nicht über die Zustandsübergangswahrscheinlichkeiten nach.
quelle