Als «reinforcement-learning» getaggte Fragen

28

Was ist der Unterschied zwischen modellfreiem und modellbasiertem Bestärkungslernen?

Was ist der Unterschied zwischen modellfreiem und modellbasiertem Bestärkungslernen? Es scheint mir, dass jeder modellfreie Lernende, der durch Ausprobieren lernt, als modellbasiert bezeichnet werden könnte. Wann wären modellfreie Lernende in diesem Fall

20

Wie gehe ich mit ungültigen Zügen beim Lernen um?

Ich möchte eine KI erstellen, die Five-in-A-Row / Gomoku spielen kann. Wie ich bereits im Titel erwähnt habe, möchte ich dafür das verstärkende Lernen verwenden. Ich verwende die Policy-Gradient- Methode, nämlich REINFORCE, mit Baseline. Für die Näherung von Wert und Richtlinienfunktion verwende...

machine-learning reinforcement-learning game-ai combinatorial-games

20

In welchem Verhältnis stehen Q-Learning-Methoden und Methoden mit politischen Verläufen?

Nach meinem Verständnis sind Q-Learning und Policy Gradients (PG) die beiden wichtigsten Ansätze zur Lösung von RL-Problemen. Während Q-Learning darauf abzielt, die Belohnung einer bestimmten Maßnahme in einem bestimmten Zustand vorherzusagen, prognostizieren Gradienten der Politik die Maßnahme...

reinforcement-learning q-learning policy-gradients comparison

14

Wie definiere ich Zustände im Bestärkungslernen?

Ich studiere das verstärkende Lernen und die Varianten davon. Ich fange an zu verstehen, wie die Algorithmen funktionieren und wie sie auf ein MDP angewendet werden. Was ich nicht verstehe, ist der Prozess der Definition der Zustände des MDP. In den meisten Beispielen und Tutorials repräsentieren...

reinforcement-learning

14

Was ist die Probeneffizienz und wie kann die Wichtigkeit der Probenahme genutzt werden, um sie zu erreichen?

Der Titel dieses Artikels lautet zum Beispiel: "Sample Efficient Actor-Critic with Experience Replay". Was ist die Probeneffizienz und wie kann die Wichtigkeit der Probenahme genutzt werden, um sie zu

reinforcement-learning statistical-ai importance-sampling

13

Warum sehen Sie in Beispielen für Verstärkungslernen keine Dropout-Ebenen?

Ich habe mich mit dem verstärkten Lernen befasst und speziell damit herumgespielt, meine eigenen Umgebungen für die Verwendung mit der OpenAI Gym AI zu erstellen. Ich verwende Agenten aus dem Projektziehbare_Basislinien, um damit zu testen. Eine Sache, die mir in praktisch allen RL-Beispielen...

machine-learning reinforcement-learning overfitting dropout

13

Inkonsistenter Aktionsbereich beim Reinforcement Learning

Diese Frage betrifft das Reinforcement Learning und unterschiedliche / inkonsistente Aktionsbereiche für jeden / einige Staaten . Was meine ich mit inkonsistentem Aktionsraum ? Angenommen, Sie haben ein MDP, bei dem die Anzahl der Aktionen zwischen den Status variiert (z. B. wie in Abbildung 1 oder...

reinforcement-learning

12

Warum benötigt DQN zwei verschiedene Netzwerke?

Ich habe diese Implementierung von DQN durchlaufen und sehe, dass in den Zeilen 124 und 125 zwei verschiedene Q-Netzwerke initialisiert wurden. Nach meinem Verständnis sagt ein Netzwerk die geeignete Aktion voraus und das zweite Netzwerk sagt die Q-Zielwerte zum Auffinden des Bellman-Fehlers...

reinforcement-learning q-learning dqn

12

Wie kann ein eingeschränkter Aktionsraum beim Lernen zur Stärkung implementiert werden?

Ich codiere ein Verstärkungslernmodell mit einem PPO-Agenten dank der sehr guten Tensorforce-Bibliothek , die auf Tensorflow basiert. Die erste Version war sehr einfach und ich tauche jetzt in eine komplexere Umgebung ein, in der nicht alle Aktionen bei jedem Schritt verfügbar sind. Angenommen, es...

deep-learning reinforcement-learning

12

Wann sollte ich Reinforcement Learning vs PID Control verwenden?

Beim Entwerfen von Lösungen für Probleme wie den Lunar Lander auf OpenAIGym ist Reinforcement Learning ein verlockendes Mittel, um dem Agenten eine angemessene Handlungskontrolle zu geben, um erfolgreich zu landen. Aber was sind die Fälle, in denen Steuersystemalgorithmen, wie PID-Regler , nur eine...

reinforcement-learning ai-design control-theory

12

Gibt es andere Anwendungen des Verstärkungslernens als Spiele?

Gibt es eine Möglichkeit, verstärktes Lernen in anderen Anwendungen als Spielen zu unterrichten? Die einzigen Beispiele, die ich im Internet finden kann, sind Spielagenten. Ich verstehe, dass VNCs die Eingabe zu den Spielen über das Verstärkungsnetzwerk steuern. Ist es möglich, dies mit einer...

reinforcement-learning applications

11

Was ist der Unterschied zwischen Schauspieler-Kritiker und Vorteils-Schauspieler-Kritiker?

Ich kämpfe darum, den Unterschied zwischen Schauspieler-Kritiker und Vorteil-Schauspieler-Kritiker zu verstehen. Zumindest weiß ich, dass sie sich von A3C (Asynchronous Advantage Actor-Critical) unterscheiden, da A3C einen asynchronen Mechanismus hinzufügt, der mehrere Worker-Agenten verwendet, die...

reinforcement-learning terminology actor-critic comparison advantage-actor-critic

11

Warum wird der Abzinsungssatz im REINFORCE-Algorithmus zweimal angezeigt?

Ich las das Buch Reinforcement Learning: Eine Einführung von Richard S. Sutton und Andrew G. Barto (vollständiger Entwurf, 5. November 2017). Auf Seite 291 wird der Pseudocode für die episodische Monte-Carlo-Policy-Gradient-Methode vorgestellt. Wenn ich mir diesen Pseudocode anschaue, kann ich...

reinforcement-learning algorithm rl-an-introduction reinforce

11

Wie können Richtlinienverläufe bei mehreren fortlaufenden Aktionen angewendet werden?

Trusted Region Policy Optimization (TRPO) und Proximal Policy Optimization (PPO) sind zwei innovative Algorithmen für Richtliniengradienten. Wenn Sie eine einzelne kontinuierliche Aktion verwenden, verwenden Sie normalerweise eine Wahrscheinlichkeitsverteilung (z. B. Gauß) für die Verlustfunktion....

deep-learning reinforcement-learning trpo

11

Wie bleibe ich ein aktueller Forscher in der ML / RL-Community?

Als Student, der am maschinellen Lernen arbeiten möchte, möchte ich wissen, wie es möglich ist, mein Studium zu beginnen und wie ich es befolgen kann, um auf dem neuesten Stand zu bleiben. Zum Beispiel bin ich bereit, an RL- und MAB-Problemen zu arbeiten, aber es gibt riesige Literaturen zu diesen...

machine-learning reinforcement-learning research markov-decision-process

11

Warum konvergiert Q-Learning nicht, wenn Funktionsnäherung verwendet wird?

Es wird garantiert, dass der tabellarische Q-Lernalgorithmus die optimale Funktion Q ∗ findet , vorausgesetzt, die folgenden Bedingungen (die Robbins-Monro-Bedingungen ) bezüglich der Lernrate sind erfülltQQQQ∗Q∗Q^* ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty...

reinforcement-learning q-learning deep-rl proofs function-approximation

10

Was ist der Bellman-Operator beim Bestärkungslernen?

In der Mathematik, das Wort Operator kann auf mehrere unterschiedliche , aber verwandte Begriffe beziehen. Ein Operator kann als eine Funktion zwischen zwei Vektorräumen definiert werden, er kann als eine Funktion definiert werden, bei der die Domäne und die Codomäne gleich sind, oder er kann als...

reinforcement-learning terminology math

10

Ist die optimale Politik immer stochastisch, wenn die Umgebung auch stochastisch ist?

Ist die optimale Politik immer stochastisch (dh eine Karte von Zuständen zu einer Wahrscheinlichkeitsverteilung über Aktionen), wenn die Umgebung auch stochastisch ist? Intuitiv, wenn die Umgebung ist deterministisch (das heißt, wenn das Mittel in einem Zustand ist und greift , dann wird der...

reinforcement-learning stochastic-policy deterministic-policy policy environment

9

Qualifiziert sich die Monte-Carlo-Baumsuche als maschinelles Lernen?

Nach meinem besten Verständnis ist der Monte-Carlo-Baumsuchalgorithmus (MCTS) eine Alternative zum Minimax für die Suche in einem Knotenbaum. Es funktioniert, indem Sie einen Zug auswählen (im Allgemeinen den mit der höchsten Chance, der Beste zu sein) und dann während des Zuges ein zufälliges...

machine-learning reinforcement-learning game-ai monte-carlo-tree-search alphazero

9

Was bedeutet „stationär“ im Kontext des verstärkenden Lernens?

Ich glaube, ich habe die Ausdrücke "stationäre Daten", "stationäre Dynamik" und "stationäre Politik" unter anderem im Zusammenhang mit dem verstärkten Lernen gesehen. Was bedeutet das? Ich denke, stationäre Politik bedeutet, dass die Politik nicht von der Zeit abhängt, sondern nur vom Staat. Aber...

reinforcement-learning terminology policy stationary-policy