Ich habe einen tiefgreifenden deterministischen Lernagenten zur Verstärkung von Richtliniengradienten entwickelt, um alle Spiele / Aufgaben mit nur einer Aktion ausführen zu können. Der Agent scheint jedoch schrecklich zu scheitern, wenn zwei oder mehr Aktionen ausgeführt werden. Ich habe versucht, online nach Beispielen für jemanden zu suchen, der DDPG auf einem System mit mehreren Aktionen implementiert, aber die Leute haben es meistens auf das Pendelproblem angewendet, bei dem es sich um ein Problem mit einer Aktion handelt.
Bei meinem aktuellen System handelt es sich um ein System mit 3 Zuständen und 2 kontinuierlichen Steuerungsaktionen (eines dient zum Einstellen der Temperatur des Systems, das andere zum Einstellen einer mechanischen Position, beide sind kontinuierlich). Ich habe jedoch die zweite kontinuierliche Aktion eingefroren, um immer die optimale Aktion zu sein. RL muss also nur eine Aktion manipulieren. Es löst sich innerhalb von 30 Folgen. In dem Moment, in dem ich dem RL erlaube, beide fortlaufenden Aktionen auszuprobieren, konvergiert er jedoch nicht einmal nach 1000 Folgen. In der Tat divergiert es aggressiv. Die Ausgabe des Akteursnetzwerks scheint immer die maximale Aktion zu sein, möglicherweise weil ich eine Tanh-Aktivierung für den Akteur verwende, um eine Ausgabebeschränkung bereitzustellen. Ich habe großen Aktionen eine Strafe hinzugefügt, aber es scheint nicht für den Fall der 2 kontinuierlichen Kontrollaktionen zu funktionieren.
Für mein Erkundungsgeräusch habe ich Ornstein-Ulhenbeck-Geräusch verwendet, wobei die Mittel für die beiden verschiedenen kontinuierlichen Aktionen angepasst wurden. Der Mittelwert des Rauschens beträgt 10% des Mittelwerts der Aktion.
Gibt es einen massiven Unterschied zwischen DDPG mit einer und mehreren Aktionen? Ich habe die Belohnungsfunktion geändert, um beide Aktionen zu berücksichtigen, habe versucht, ein größeres Netzwerk aufzubauen, habe versucht, Prioritäten zu wiederholen usw., aber anscheinend fehlt mir etwas. Hat hier jemand Erfahrung mit dem Aufbau eines DDPG mit mehreren Aktionen und könnte mir einige Hinweise geben?
quelle
Antworten:
Erste gestellte Frage
Die Art und Weise, wie die Frage formuliert ist, impliziert, dass es sich bei der Abfrage um eine diskrete Implikation handelt, dass eine architektonische Änderung ein Gebot ist. Da eine Aktion aus mehreren Aktionen bestehen kann, ist es nicht so, ob Sequenzierungsabhängigkeiten von den Komponentenaktionen bestehen oder nicht. Bei der Steuerung zweier physikalischer Eigenschaften hat der Steuerraum zwei Freiheitsgrade. Dass sie mit diskreten Korrekturen gesteuert werden, führt zu einer Mischung aus kontinuierlicher und diskreter Mathematik, die in der Steuerung üblich ist.
Aus dem Text und den Kommentaren geht hervor, dass der Autor der Frage wahrscheinlich mit diesen Fakten vertraut ist. Eine der beiden beschriebenen Hauptfragen ist, ob mit einer komplexeren Prozesstopologie oder anderen strategischen Anwendungen der Erwartungs- und Wahrscheinlichkeitsverteilungsmathematik Gewinne erzielt werden können. Solche Gewinne könnten erreichbar sein.
Bei Temperatur und Position ist eine weitere topologische Verfeinerung nicht wahrscheinlich.
Langfristiges Forschungsziel
Später auf dem Forschungspfad werden topologische Änderungen des Prozess- und Signalflusses (früh in der Entwicklung der Systemarchitektur) wahrscheinlich die Systemqualität verbessern. Dies ist wahrscheinlich angesichts der erklärten Absicht, einen intelligenten Lerncontroller zu entwickeln, der das Beste aus mehreren konzeptionellen Quellen nutzt.
Ob es einen Schnittpunkt aller sechs gibt, der vom Beitrag jedes einzelnen profitiert, ist unwahrscheinlich, aber eine vernünftige Hypothese zu testen.
Sofortige Sorge
Die Beschreibung der aktuellen Ausgabe hängt nicht eng mit der zuerst genannten Frage oder dem endgültigen Ziel zusammen, sondern ist eine Anomalie im aktuellen Proof of Concept.
Das Hinzufügen eines zweiten Freiheitsgrades, der Temperatur, "Fail [s] schrecklich [und] divergiert aggressiv", bevor 1.000 Episoden erreicht werden, ist in der Tat eine Anomalie. Es ist unwahrscheinlich, dass die Injektion von -20 dB Ornstein-Ulhenbeck-Rauschen, gemessen anhand der mittleren Amplitude (10%), um Suchfallen zu vermeiden, damit zusammenhängt
Nur wenn die Person, die die Software erweitert, nicht mit multivariaten Berechnungen vertraut ist.
Die versuchten Mittel scheinen keine Ergebnisse zu liefern, was nicht überraschend ist, da keines mit einer wahrscheinlichen Grundursache zu tun hat.
Das sechste erwähnte Ding könnte eher die Divergenz beheben.
Die beschriebene besondere Anomalie weist, wenn auch ohne große Einzelheiten, auf einige häufige Ursachen für unerwartete grobe Divergenz hin.
quelle