Diese Frage bezieht sich auf das Deepmind-Papier zu DDPG: https://arxiv.org/pdf/1509.02971v5.pdf . Die meisten (alle?) Implementierungen des DDPG-Algorithmus, die ich gesehen habe, berechnen die Gradientenaktualisierung für das Akteursnetzwerk durch
Diese Frage bezieht sich auf das Deepmind-Papier zu DDPG: https://arxiv.org/pdf/1509.02971v5.pdf . Die meisten (alle?) Implementierungen des DDPG-Algorithmus, die ich gesehen habe, berechnen die Gradientenaktualisierung für das Akteursnetzwerk durch
Ich bin neu im Deep Learning und versuche, die Ableitung der folgenden Funktion in Bezug auf die Matrix zu berechnen :ww\mathbf w p(a)=ew⊤axΣdew⊤dxp(a)=ewa⊤xΣdewd⊤xp(a) = \frac{e^{w_a^\top x}}{\Sigma_{d} e^{w_d^\top x}} Unter Verwendung der Quotientenregel erhalte ich:
Ich habe das folgende Setup für ein Forschungsprojekt im Bereich Finanzen / Maschinelles Lernen an meiner Universität: Ich wende ein (Deep) Neural Network (MLP) mit der folgenden Struktur in Keras / Theano an, um überdurchschnittliche Aktien (Label 1) von unterdurchschnittlichen Aktien zu...
Ich habe das Standard- / berühmte word2vec- Modell gelesen und gemäß den Standardnotizen für cs224n ändert sich die Zielfunktion von: J.o r i gi n a l= -∑j = 0 , j ≠ m2 mu⊤c - m + jvc+ 2 m l o g(∑k = 1| V.|e x p (u⊤kvc) )J.ÖrichGichneinl=- -∑j=0,j≠m2muc-
Ich möchte eine Stimmungsanalyse für Text durchführen, habe mehrere Artikel durchgesehen, einige verwenden "Naive Bayes" und andere sind "Recurrent Neural Network (LSTM)" , andererseits habe ich eine Python-Bibliothek für die Stimmungsanalyse gesehen, die ist nltk. Es verwendet "Naive Bayes". Kann...
In den Vorlesungsunterlagen der 5. Woche für Andrew Ngs Coursera Machine Learning Class wird die folgende Formel zur Berechnung des Werts von der zum Initialisieren von mit zufälligen Werten verwendet wird:ϵϵ\epsilonΘΘ\Theta In der Übung werden weitere Erläuterungen gegeben: Eine effektive...
Ich bin ein bisschen beunruhigt und verwirrt über die Idee, wie die Technik des frühen Stoppens definiert wird. Wenn Sie sich Wikipedia ansehen , ist es wie folgt definiert: Teilen Sie die Trainingsdaten in einen Trainingssatz und einen Validierungssatz auf, z. B. im Verhältnis 2 zu 1. Trainieren...
Wenn tiefe neuronale Netze als universelle Funktionsapproximatoren betrachtet werden, ist eine Basiserweiterung wirklich notwendig? Oder wäre dies fallspezifisch? Wenn man beispielsweise drei quantitative X-Variablen hat, wäre es dann von Vorteil, die Anzahl der Variablen durch Einführung von...
Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen vor 2 Jahren . Was bedeutet das? Epoch...
Ich habe ein neuronales Netzwerk (Feed-Forward Single Layer), mit dem ich versuche, eine umweltbezogene Variable aus zwei Finanzvariablen vorherzusagen (Regression). Ich benutze die "Zug" -Funktion aus dem Caret-Paket. Ich benutze den nnet()Algorithmus im Caret-Paket. Ich habe zwei kontinuierliche...
Es ist ziemlich intuitiv, dass die meisten Topologien / Architekturen neuronaler Netze nicht identifizierbar sind. Aber was sind einige bekannte Ergebnisse auf diesem Gebiet? Gibt es einfache Bedingungen, die eine Identifizierbarkeit ermöglichen / verhindern? Zum Beispiel, Alle Netzwerke mit...
Gilt der universelle Approximationssatz für neuronale Netze für eine Aktivierungsfunktion (Sigmoid, ReLU, Softmax usw.) oder ist er auf Sigmoidfunktionen beschränkt? Update: Wie Shimao in den Kommentaren hervorhebt, gilt es für absolut keine Funktion. Für welche Klasse von Aktivierungsfunktionen...
Ist das Folgende wahr? niedrige Vorspannung = hohe Varianz hohe Vorspannung = niedrige Varianz Ich verstehe hohe und niedrige Vorurteile, aber wie unterscheidet sich die Varianz? Oder sind die oben genannten
Ich möchte besser verstehen, warum sich LSTM über einen längeren Zeitraum an Informationen erinnern kann als Vanille / einfaches wiederkehrendes neuronales Netzwerk (SRNN), indem ich ein Experiment aus dem Artikel Lernen von Langzeitabhängigkeiten mit Gradientenabstieg von Bengio et al. 1994 ....
Ich trainiere ein neuronales Netzwerk für die Audioklassifizierung. Ich habe es auf dem UrbanSound8K-Datensatz (Modell 1) trainiert und wollte dann bewerten, wie unterschiedliche Pegel des zusätzlichen Rauschens zu den Eingaben die Vorhersagegenauigkeit beeinflussen. Basisgenauigkeit Modell1 =...
Diese Frage wird unter stats.stackexchange.com/q/233658 beantwortet Das logistische Regressionsmodell für die Klassen {0, 1} lautet P(y=1|x)=exp(wTx)1+exp(wTx)P(y=0|x)=11+exp(wTx)P(y=1|x)=exp(wTx)1+exp(wTx)P(y=0|x)=11+exp(wTx) \mathbb{P} (y = 1 \;|\; x) = \frac{\exp(w^T x)}{1 + \exp(w^T x)}...
Alex Graves hat ein Modell erstellt, um Handschriftsequenzen zu generieren, die ein LSTM (Art Recurrent Neural Network) verwenden, um die Parameter für ein Mischungsmodell vorherzusagen. Das Mischungsmodell wird dann verwendet, um die nächste x-, y-Koordinate vorherzusagen und ob der Stift nach...
Ich verstehe, dass ein neuronales Netzwerk mit radialer Basisfunktion (RBF) normalerweise eine verborgene Schicht hat und sich von einem mehrschichtigen Perzeptron (MLP) unter anderem durch seine Aktivierungs- und Kombinationsfunktionen unterscheidet, aber wie entscheide ich, wann ein Datensatz /...
Angenommen, der Lernende beherrscht künstliche neuronale Netze und verfügt über einen Hintergrund im Bereich des verstärkten Lernens. Was sind einige gute Ressourcen (Bücher / Videos / Papiere / GitHub-Repo / etc.), Um mit dem vertieften Lernen zu
Ich versuche, ein großes Modell (tiefes Netz mit Kaffee) mit stochastischem Gradientenabstieg (SGD) zu trainieren. Das Problem ist, dass ich durch meine GPU-Speicherkapazität eingeschränkt bin und daher keine großen Mini-Batches für jede stochastische Gradientenschätzung verarbeiten kann. Wie kann...