Batch-Normalisierung und ReLUs sind beide Lösungen für das Problem des verschwindenden Gradienten. Wenn wir die Chargennormalisierung verwenden, sollten wir dann Sigmoide verwenden? Oder gibt es Funktionen von ReLUs, die sie auch bei Verwendung von Batchnorm lohnenswert machen?
Ich nehme an, dass die in Batchnorm durchgeführte Normalisierung keine negativen Aktivierungen aussendet. Bedeutet das, dass Batchnorm das Problem "Dead ReLU" löst?
Aber die Kontinuität von Tanh und Logistik bleibt attraktiv. Wenn ich Batchnorm verwende, funktioniert Tanh besser als ReLU?
Ich bin sicher, dass die Antwort davon abhängt . Was hat in Ihrer Erfahrung funktioniert und was sind die herausragenden Merkmale Ihrer Anwendung?
deep-learning
batch-normalization
generic_user
quelle
quelle
Antworten:
Das Grundkonzept der Batch-Normalisierung lautet: (Auszug aus einem Medium-Artikel) -
Lesen Sie den Artikel hier.
quelle
madman hat Ihre Frage zur Chargennormalisierung richtig beantwortet und ich möchte Ihren zweiten Teil beantworten, dass kontinuierliche Funktionen ansprechend erscheinen mögen, aber relu besser ist als alle anderen, und diese Aussage ist nicht von meiner Seite MR. Hinton zitierte es: "Wir waren dumme Leute, die Sigmoid als Aktivierungsfunktion verwendeten, und es dauerte 30 Jahre, bis diese Erkenntnis eintrat, dass es Ihr Neuron niemals sättigen lässt, ohne seine Form zu verstehen. Es ist immer gesättigt, also ist es abgeleitet und." er nannte sich selbst und alle anderen verblüfften Menschen ".Wählen Sie also eine Aktivierungsfunktion, nur weil sie kontinuierlich ist und nicht darauf achtet, wie sie sich auf Ihr Neuron auswirkt."
Hinweis: Wenn Sie neuronale Netze studieren, würde ich Ihnen raten, neuronale Netze als große und tiefe zusammengesetzte Funktionen zu betrachten, um zu verstehen, was funktioniert und warum es funktioniert. Sie müssen verstehen, wie ein neuronales Netz eine Vielzahl von Daten in einer höheren Dimension erzeugt "Diese Daten, bei denen die Güte der Mannigfaltigkeit von Ihrer Wahl der Funktionen abhängt und davon, wie eine Funktion die Ausgabe der anderen Funktionen transformiert, wenn sie als Eingabe übergeben wird.
quelle