Was ist beim verstärkten Lernen der Unterschied zwischen dynamischer Programmierung und zeitlichem
Was ist beim verstärkten Lernen der Unterschied zwischen dynamischer Programmierung und zeitlichem
Ich habe Schwierigkeiten, eine Erklärung dafür zu finden, warum Standard-Q-Learning dazu neigt, Q-Werte zu überschätzen (was durch die Verwendung von doppeltem Q-Learning behoben wird). Die einzigen Quellen, die ich gefunden habe, erklären nicht genau, warum diese Überschätzung auftritt. Zum...
Ich habe daran gearbeitet, die optimale Kommunikationsrichtlinie für Kunden zu lernen (welche Benachrichtigungen gesendet werden sollen, wie viele gesendet werden sollen und wann gesendet werden soll). Ich habe historische Daten früherer Benachrichtigungen (mit Zeitstempeln) und deren Leistungen...
Ist eine Politik beim verstärkten Lernen immer deterministisch oder ist es eine Wahrscheinlichkeitsverteilung über Aktionen (aus denen wir eine Stichprobe ziehen)? Wenn die Richtlinie deterministisch ist, warum nicht die Wertfunktion, die in einem bestimmten Zustand für eine bestimmte Richtlinie...
Ich habe Daten, die beschreiben, wie oft ein Ereignis während einer Stunde stattfindet ("Anzahl pro Stunde", nph) und wie lange die Ereignisse dauern ("Dauer in Sekunden pro Stunde", dph). Dies sind die Originaldaten: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008,...
Ich bin auf die Formel gestoßen, um die oberen Vertrauensgrenzen für das Problem der k-bewaffneten Banditen zu erreichen: c ln N.ichnich- -- -- -- -- -√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} Dabei ist die Anzahl der Proben, die wir für diesen bestimmten Banditen haben, und die Gesamtmenge der...
Mein Arbeitsplatz hat eine zweiwöchige Code-Herausforderung, bei der ein Algorithmus erstellt wird, mit dem unter bestimmten Einschränkungen 100 Bob Ross-Musterbilder so genau wie möglich reproduziert werden können: "Gemälde" werden als JSON-Datei eingereicht, die eine Hintergrundfarbe und eine...
Ich versuche, das Papier von openAI mit dem Titel Multi-Agent Actor-Critic für gemischte kooperativ-wettbewerbsorientierte Umgebungen zu verstehen In dem Papier erwähnen sie, dass sie das Problem der Nichtstationarität der Umwelt bekämpfen, indem sie Stichproben aus Teilrichtlinien ziehen: Ich bin...
Ich habe eine Frage zu Methoden der Schauspielerkritik beim Lernen zur Stärkung. In diesen Folien ( https://hadovanhasselt.files.wordpress.com/2016/01/pg1.pdf ) werden verschiedene Arten von Schauspieler-Kritikern erläutert. Vorteil Schauspieler Kritiker und TD Schauspieler Kritiker werden auf der...
Ich habe einen Stapel von Artikeln über Faltungsnetzwerke und das Lernen der Verstärkung gelesen. Ich erinnere mich an ein wichtiges Papier mit einer nicht rechteckigen Form der Faltungsschicht (die grüne Form in dieser albernen Zeichnung). Aber jetzt kann ich es nicht finden. Es könnte etwas...
Ich habe gerade mit Sutton und Bartos Buch Reinforcement Learning: An Introduction begonnen und bin gespannt, wie ich über die Antwort auf Übung 1.1: Selbstspiel nachdenken soll . Angenommen, anstatt gegen einen zufälligen Gegner zu spielen, spielt der oben beschriebene Verstärkungslernalgorithmus...
Ist es in RL üblich, am Ende der Aufgabe nur eine Belohnung zu erhalten? Oder ist es auch möglich, Unteraufgaben / Zwischenziele einzuführen, damit das Feedback nicht so verzögert wird und mehr Belohnungen (Funktionen) erforderlich
Angenommen, der Lernende beherrscht künstliche neuronale Netze und verfügt über einen Hintergrund im Bereich des verstärkten Lernens. Was sind einige gute Ressourcen (Bücher / Videos / Papiere / GitHub-Repo / etc.), Um mit dem vertieften Lernen zu
Dies ist aus einem Artikel 'Algorithmen für inverses Verstärkungslernen' von Ng, Russell (2001) Wir gehen davon aus, dass wir in der Lage sind, Trajektorien im MDP (ab dem Anfangszustand ) unter der optimalen Richtlinie oder unter einer Richtlinie unserer Wahl zu simulieren . Für jede Richtlinie ,...
Wir haben einen Musik-Player mit unterschiedlichen Wiedergabelisten, der automatisch Titel aus der aktuellen Wiedergabeliste vorschlägt, in der ich mich befinde. Ich möchte, dass das Programm lernt, dass wenn ich den Titel überspringe, die Wahrscheinlichkeit verringert wird, dass er erneut in...