Ich habe hier folgendes gelesen :
- Sigmoid-Ausgänge sind nicht nullzentriert . Dies ist unerwünscht, da Neuronen in späteren Verarbeitungsebenen in einem neuronalen Netzwerk (dazu bald mehr) Daten empfangen würden, die nicht nullzentriert sind. Dies hat Auswirkungen auf die Dynamik beim Gradientenabstieg, denn wenn die in ein Neuron eingehenden Daten immer positiv sind (z. B. elementweise in )), wird der Gradient auf den Gewichten während der Rückausbreitung entweder alle positiv oder alle negativ sein (abhängig vom Gradienten des gesamten Ausdrucks ). Dies könnte unerwünschte Zick-Zack-Dynamiken in die Gradientenaktualisierungen für die Gewichte einführen. Beachten Sie jedoch, dass die endgültige Aktualisierung für die Gewichte variable Vorzeichen haben kann, sobald diese Verläufe über einen Datenstapel hinweg addiert wurden, wodurch dieses Problem etwas gemindert wird. Dies ist daher ein Nachteil, hat jedoch weniger schwerwiegende Konsequenzen als das oben beschriebene Problem der gesättigten Aktivierung.
Warum würde es bei w zu ausschließlich positiven oder ausschließlich negativen Verläufen führen, wenn alle (elementweise) wären ?
neural-networks
deep-learning
backpropagation
Amelio Vazquez-Reina
quelle
quelle
Antworten:
Wenn unser Ziel zufällig im Nordosten liegt, können wir uns nur im Zick-Zack bewegen, um dorthin zu gelangen, genau wie beim parallelen Parken auf engem Raum. (Verzeih meine Zeichnung)
Daher können rein positive oder rein negative Aktivierungsfunktionen (relu, sigmoid) für die gradientenbasierte Optimierung schwierig sein. Um dieses Problem zu lösen, können wir die Daten im Voraus so normalisieren, dass sie wie bei der Batch / Layer-Normalisierung auf Null zentriert sind.
quelle