Als «q-learning» getaggte Fragen

18

Warum verwendet Q-Learning beim Testen epsilon-greedy?

In DeepMinds Artikel über Deep Q-Learning für Atari-Videospiele ( hier ) verwenden sie eine Epsilon-gierige Methode zur Erkundung während des Trainings. Dies bedeutet, dass bei Auswahl einer Aktion im Training diese entweder als Aktion mit dem höchsten q-Wert oder als zufällige Aktion ausgewählt...

17

Warum wurde der Buchstabe Q in Q-learning gewählt?

Warum wurde der Buchstabe Q im Namen von Q-learning gewählt? Die meisten Buchstaben werden als Abkürzung gewählt, z. B. steht ππ\pi für policy und vvv für value. Aber ich glaube nicht, dass Q eine Abkürzung für ein Wort

terminology reinforcement-learning history q-learning

14

Was ist der Unterschied zwischen Episode und Epoche beim Deep-Q-Lernen?

Ich versuche die berühmte Zeitung "Atari spielen mit Deep Reinforcement Learning" ( pdf ) zu verstehen . Mir ist der Unterschied zwischen einer Epoche und einer Episode unklar . In Algorithmus befindet sich die äußere Schleife über Episoden , während in Abbildung 2 die x-Achse als Epoche bezeichnet...

neural-networks terminology reinforcement-learning q-learning

10

Wie genau wird die Deep Q-Learning Loss-Funktion berechnet?

Ich habe Zweifel, wie genau die Verlustfunktion eines Deep Q-Learning-Netzwerks trainiert wird. Ich verwende ein 2-Schicht-Feedforward-Netzwerk mit linearer Ausgangsschicht und relu versteckten Schichten. Nehmen wir an, ich habe 4 mögliche Aktionen. Somit ist der Ausgang von dem Netzwerk für den...

least-squares deep-learning loss-functions reinforcement-learning q-learning

9

Wie effizient ist Q-Learning mit neuronalen Netzen, wenn pro Aktion eine Ausgabeeinheit vorhanden ist?

Hintergrund: Ich verwende in meiner Lernaufgabe zur Verstärkung die Q-Wert-Näherung des neuronalen Netzwerks. Der Ansatz ist genau der gleiche wie der in dieser Frage beschriebene , jedoch ist die Frage selbst anders. Bei diesem Ansatz ist die Anzahl der Ausgaben die Anzahl der Aktionen, die wir...

machine-learning neural-networks reinforcement-learning q-learning

9

Wie interpretiere ich eine Überlebenskurve des Cox-Hazard-Modells?

Wie interpretieren Sie eine Überlebenskurve aus dem Cox-Proportional-Hazard-Modell? Nehmen wir in diesem Spielzeugbeispiel an, wir haben ein Cox-Proportional-Hazard-Modell für ageVariablen in kidneyDaten und generieren die Überlebenskurve. library(survival) fit <- coxph(Surv(time, status)~age,...

r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

9

Verstärkungslernen in instationärer Umgebung

Frage 1: Gibt es gemeinsame oder akzeptierte Methoden für den Umgang mit instationären Umgebungen beim Reinforcement-Lernen im Allgemeinen? F2: In meiner Gridworld ändert sich die Belohnungsfunktion, wenn ein Staat besucht wird. In jeder Episode werden die Belohnungen auf den Ausgangszustand...

markov-process reinforcement-learning stationarity q-learning

9

Übersicht über Verstärkungslernalgorithmen

Ich suche derzeit nach einem Überblick über Verstärkungslernalgorithmen und möglicherweise nach einer Klassifizierung davon. Aber neben Sarsa und Q-Learning + Deep Q-Learning kann ich keine populären Algorithmen finden. Wikipedia gibt mir einen Überblick über verschiedene allgemeine Methoden des...

reinforcement-learning q-learning

8

Warum gibt es beim Q-Learning (Bestärkungslernen) keine Übergangswahrscheinlichkeit?

Unser Ziel beim Bestärkungslernen ist es, die Zustandswertfunktion oder die Aktionswertfunktion zu optimieren, die wie folgt definiert sind: Vπs=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]V.sπ=∑p(s'|s,π(s))[r(s'|s,π(s))+γV.π(s')]]=E.π[r(s'|s,ein)+γV.π(s')|s0=s]]V^{\pi}_s = \sum...

reinforcement-learning q-learning

8

Ist das Planen in Dyna-Q eine Form der Erfahrungswiederholung?

In Richard Suttons Buch über RL (2. Auflage) stellt er den Dyna-Q-Algorithmus vor, der Planung und Lernen kombiniert. Im Planungsteil des Algorithmus tastet der Dyna-Agent zufällig n Zustands-Aktions-Paare zuvor vom Agenten gesehen wurden, speist dieses Paar in sein Umgebungsmodell ein und erhält...

reinforcement-learning q-learning