In der Robotik wird die Verstärkunglerntechnik verwendet, um das Steuermuster für einen Roboter zu finden. Leider sind die meisten Methoden mit politischem Gradienten statistisch voreingenommen, was den Roboter in eine unsichere Situation bringen könnte, siehe Seite 2 in Jan Peters und Stefan Schaal: Verstärktes Erlernen motorischer Fähigkeiten mit politischen Gradienten, 2008
Mit motorischem primitivem Lernen ist es möglich, das Problem zu überwinden, da die Optimierung von Richtliniengradientenparametern die Lernschritte in das Ziel lenkt.
Zitat: „Wenn die Gradientenschätzung unvoreingenommen ist und die Lernraten die Summe (a) = 0 erfüllen, konvergiert der Lernprozess garantiert auf mindestens ein lokales Minimum [...]. Daher müssen wir den Gradienten der Richtlinie nur anhand der generierten Daten schätzen während der Ausführung einer Aufgabe. ”(Seite 4 desselben Papiers)
In den Hausaufgaben für die Berkeley RL-Klasse Problem 1 werden Sie aufgefordert zu zeigen, dass der Richtliniengradient immer noch unverzerrt ist, wenn die subtrahierte Basislinie eine Funktion des Zustands zum Zeitpunkt t ist.
Ich kämpfe mich durch den ersten Schritt eines solchen Beweises. Kann mich jemand in die richtige Richtung weisen? Mein erster Gedanke war, irgendwie das Gesetz der totalen Erwartung zu verwenden, um die Erwartung von b (st) von T abhängig zu machen, aber ich bin mir nicht sicher. Danke im Voraus :)
quelle
Antworten:
Unter Verwendung des Gesetzes der iterierten Erwartungen hat man:
geschrieben mit Integralen und Verschieben des Gradienten nach innen (Linearität) erhalten Sie
Sie können nun∇θ (aufgrund der Linearität) bewegen und b(st) (hängt nicht von at ) bilden das innere Integral zum äußeren:
Jetzt ist∇θ1=0 , was den Beweis abschließt.
quelle
Es scheint , dass die Hausaufgaben 2 Tage vor dieser Antwort des Schreibens zurückzuführen war, aber in Fall ist es immer noch relevant in irgendeiner Weise, die relevanten Klasse Noten (die nützlich gewesen wäre , wenn zusammen mit den Hausaufgaben in der Frage zur Verfügung gestellt) sind hier .
Diese Übung ist eine Vorbereitung für den nächsten Schritt in den Hausaufgaben und stützt sich nur auf den Rückblick auf CS189, Burkeleys Einführung in das maschinelle Lernen, dessen Lehrplan oder Klassennotizen nicht das Gesetz der totalen Erwartung enthalten.
Alle relevanten Informationen finden Sie im obigen Link für Klassennotizen und erfordern nur Zwischenalgebra.
quelle