Als «reinforcement-learning» getaggte Fragen

30

Was ist die Q-Funktion und was ist die V-Funktion beim Bestärkungslernen?

Es scheint mir, dass die VVV Funktion leicht durch die QQQ Funktion ausgedrückt werden kann und daher die Funktion für mich überflüssig zu sein scheint. Allerdings lerne ich noch nicht viel, also habe ich wohl etwas falsch gemacht.VVV Definitionen Q- und V-Learning stehen im Kontext von...

machine-learning reinforcement-learning

29

Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?

Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :(...

scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

25

Unterschied zwischen dem Richtliniennetzwerk von AlphaGo und dem Wertnetzwerk

Ich habe eine allgemeine Zusammenfassung zu Googles AlphaGo gelesen ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ) und bin auf die Begriffe "Richtlinie" gestoßen network "und" value network ". Auf hoher Ebene verstehe ich, dass das Richtliniennetzwerk...

machine-learning reinforcement-learning

23

Was genau ist Bootstrapping beim Reinforcement-Lernen?

Offensichtlich handelt es sich beim Verstärkungslernen bei der Zeitdifferenzmethode (TD-Methode) um eine Bootstrapping-Methode. Andererseits sind Monte-Carlo-Methoden keine Bootstrapping-Methoden. Was genau ist Bootstrapping in RL? Was ist eine Bootstrapping-Methode in

reinforcement-learning

19

Was ist "Experience Replay" und welche Vorteile hat es?

Ich habe gelesen , DeepMind Ataris Google Papier und ich versuche , das Konzept der „Erfahrung replay“ zu verstehen. Die Wiederholung von Erfahrungen ist in vielen anderen Lernpapieren zur Verstärkung enthalten (insbesondere im AlphaGo-Papier), daher möchte ich verstehen, wie es funktioniert....

reinforcement-learning q-learning

14

AlphaGo (und andere Spieleprogramme, bei denen das Lernen durch Verstärkung verwendet wird) ohne menschliche Datenbank

Ich bin kein Fachmann auf diesem Gebiet, und meine Frage ist wahrscheinlich sehr naiv. Es geht aus einem Aufsatz hervor, in dem die Möglichkeiten und Grenzen des Lernens zur Stärkung, wie sie im AlphaGo-Programm verwendet werden, erläutert werden. Das Programm AlphaGo wurde unter anderem mit Hilfe...

reinforcement-learning

12

Betreutes Lernen versus Bestärkungslernen für ein einfaches selbstfahrendes RC-Auto

Ich baue aus Spaß ein ferngesteuertes, selbstfahrendes Auto. Ich verwende einen Raspberry Pi als Bordcomputer. und ich benutze verschiedene Plug-Ins, wie eine Himbeer-Pi-Kamera und Abstandssensoren, um Rückmeldung über die Umgebung des Autos zu erhalten. Ich benutze OpenCV, um die Video-Frames in...

reinforcement-learning supervised-learning

11

Gibt es gute Out-of-the-Box-Sprachmodelle für Python?

Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a...

python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

11

Warum normalisieren wir die reduzierten Belohnungen, wenn wir das Lernen zur Verstärkung von Richtliniengradienten durchführen?

Ich versuche, den Policy-Gradient- Ansatz zur Lösung des Cartpole- Problems zu verstehen . Bei diesem Ansatz drücken wir den Gradienten des Verlusts für jeden Parameter unserer Richtlinie als Erwartung der Summe der Gradienten unseres Richtliniengradienten für alle Aktionen in einer Sequenz aus,...

reinforcement-learning

10

Kooperatives Reinforcement Learning

Ich habe bereits eine funktionierende -Implementierung für einen einzelnen Agenten, der an einem dynamischen Preisproblem mit dem Ziel der Maximierung des Umsatzes arbeitet. Das Problem, mit dem ich arbeite, betrifft jedoch mehrere verschiedene Produkte, die sich gegenseitig ersetzen. Daher scheint...

machine-learning reinforcement-learning

10

zeitliche Differenz im Schach umsetzen

Ich habe ein Schachprogramm entwickelt, das einen Alpha-Beta-Bereinigungsalgorithmus und eine Bewertungsfunktion verwendet, die Positionen unter Verwendung der folgenden Merkmale bewertet, nämlich Material, Königssicherheit, Mobilität, Bauernstruktur und gefangene Figuren usw. ..... Meine...

machine-learning algorithms reinforcement-learning

9

Bücher über Reinforcement Learning

Ich habe schon seit einiger Zeit versucht, das Lernen von Verstärkung zu verstehen, aber irgendwie kann ich mir nicht vorstellen, wie man ein Programm für das Lernen von Verstärkung schreibt, um ein Problem der Gitterwelt zu lösen. Können Sie mir einige Lehrbücher vorschlagen, die mir helfen...

machine-learning books reinforcement-learning

9

Priorisierte Wiedergabe, was macht Importance Sampling wirklich?

Ich kann den Zweck der Wichtigkeitsabtastung von Gewichten (IS) in der priorisierten Wiedergabe (Seite 5) nicht verstehen . Es ist wahrscheinlicher, dass ein Übergang aus der Erfahrungswiederholung entnommen wird, je höher seine "Kosten" sind. Nach meinem Verständnis hilft 'IS' dabei, die...

reinforcement-learning

9

Kann das Reinforcement-Lernen für die Vorhersage von Zeitreihen angewendet werden?

time-series reinforcement-learning forecasting

8

Welche Kenntnisse benötige ich, um ein einfaches KI-Programm zum Spielen eines Spiels zu schreiben?

Ich bin ein B.Sc-Absolvent. Einer meiner Kurse war "Einführung in das maschinelle Lernen", und ich wollte immer ein persönliches Projekt in diesem Fach machen. Ich habe kürzlich von verschiedenen KI-Trainings gehört, um Spiele wie Mario, Go usw. zu spielen. Welche Kenntnisse muss ich erwerben, um...

machine-learning algorithms beginner reinforcement-learning training

8

Ist das ein Q-Learning-Algorithmus oder nur Brute Force?

Ich habe mit einem Algorithmus gespielt, der lernt, wie man Tictactoe spielt. Der grundlegende Pseudocode lautet: repeat many thousand times { repeat until game is over { if(board layout is unknown or exploring) { move randomly } else { move in location which historically gives highest reward } }...

machine-learning neural-network reinforcement-learning q-learning

8

Wie funktioniert die allgemeine Vorteilsschätzung?

Ich habe schon seit einiger Zeit versucht, GAE zu meiner A2C-Implementierung hinzuzufügen , aber ich kann nicht ganz verstehen, wie es funktioniert. Mein Verständnis davon ist, dass es die Varianz der Vorteilsschätzungsfunktion reduziert, indem die Vorteile basierend auf den Werten im Rollout...

machine-learning reinforcement-learning

8

Generieren Sie Vorhersagen, die orthogonal (nicht korreliert) zu einer bestimmten Variablen sind

Ich habe eine XMatrix, eine yVariable und eine andere Variable ORTHO_VAR. Ich muss die yVariable vorhersagen , wobei Xdie Vorhersagen aus diesem Modell orthogonal sein müssen, ORTHO_VARwährend sie so korreliert ywie möglich sind. Ich würde es vorziehen, wenn die Vorhersagen mit einer nicht...

correlation machine-learning dataset logistic-regression prediction linear-regression prediction dummy-variables neural-network image-classification python k-nn python neural-network neural-network deep-learning keras tensorflow image-classification tensorflow reinforcement-learning policy-gradients machine-learning decision-trees neural-network overfitting data-analysis metric python scikit-learn distance scipy machine-learning python scikit-learn decision-trees logistic-regression keras image-classification implementation machine-learning python scikit-learn random-forest decision-trees machine-learning feature-selection feature-engineering word2vec word-embeddings natural-language-process scikit-learn time-series clustering k-means python cross-validation pyspark statistics cross-validation multiclass-classification evaluation machine-learning nlp machine-translation neural-network deep-learning keras tensorflow image-classification machine-learning python similarity distance lstm text named-entity-recognition machine-learning keras optimization gan learning-rate neural-network data-mining dataset databases books neural-network rnn

7

Was ist die Neuheit in AlphaGo, dem Go-Spielsystem von Google Deepmind?

Kürzlich Forscher bei Google Deepmind veröffentlichten ein Papier , in dem sie ein Go Spielsystem beschrieben, das die besten aktuellen Computerprogramme und die menschlichen Europameister schlagen. Ich habe mir dieses Papier kurz angesehen und es scheint, dass es viele interessante Ideen aus...

reinforcement-learning

7

Warum geht Q Learning auseinander?

Die Zustandswerte meines Q-Learning-Algorithmus weichen immer wieder ins Unendliche ab, was bedeutet, dass auch meine Gewichte voneinander abweichen. Ich verwende ein neuronales Netzwerk für meine Wertzuordnung. Ich habe es versucht: Beschneiden des "Belohnungs + Rabatt * Maximalwert der Aktion"...

machine-learning python reinforcement-learning q-learning