Als «neural-networks» getaggte Fragen

44
Welche Aktivierungsfunktion für die Ausgabeebene?

Während die Auswahl der Aktivierungsfunktionen für die verborgene Ebene ziemlich klar ist (meistens Sigmoid oder Tanh), frage ich mich, wie ich mich für die Aktivierungsfunktion für die Ausgabeebene entscheiden soll. Häufige Auswahlmöglichkeiten sind lineare Funktionen, Sigmoidfunktionen und...

43
Softmax-Schicht in einem neuronalen Netzwerk

Ich versuche, einem mit Backpropagation trainierten neuronalen Netzwerk eine Softmax-Ebene hinzuzufügen, also versuche ich, den Gradienten zu berechnen. Der Softmax-Ausgang ist wobeijdie Ausgangsneuronenzahl ist.hj= ezj∑ ezichhj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}jjj Wenn ich es ableite,...

42
Was ist maxout im neuronalen Netz?

Kann jemand erklären, was maxout-Einheiten in einem neuronalen Netzwerk tun? Wie arbeiten sie und wie unterscheiden sie sich von herkömmlichen Einheiten? Ich habe versucht, das 2013 erschienene "Maxout Network" -Papier von Goodfellow et al. Zu lesen . (aus der Gruppe von Professor Yoshua Bengio),...

36
Maschinelles Lernen: Soll ich für binäre Vorhersagen eine kategoriale Kreuzentropie oder einen binären Kreuzentropieverlust verwenden?

Zunächst wurde mir klar, dass ich, wenn ich binäre Vorhersagen durchführen muss, mindestens zwei Klassen durch Ausführen einer One-Hot-Codierung erstellen muss. Ist das richtig? Gilt die binäre Kreuzentropie jedoch nur für Vorhersagen mit nur einer Klasse? Wenn ich einen kategorialen...

35
Wie verhindert LSTM das Problem des Fluchtgradienten?

LSTM wurde speziell erfunden, um das Problem des verschwindenden Gradienten zu vermeiden. Dies soll mit dem Constant Error Carousel (CEC) geschehen, das in der folgenden Abbildung (von Greff et al. ) Der Schleife um die Zelle entspricht . (Quelle: deeplearning4j.org ) Und ich verstehe, dass dieser...