Es wird oft erwähnt, dass gleichgerichtete Lineareinheiten (ReLU) Softplus-Einheiten abgelöst haben, weil sie linear sind und schneller berechnet werden können.
Hat softplus it noch den Vorteil der Sparity-Induktion oder ist das auf die ReLU beschränkt?
Der Grund, den ich frage, ist, dass ich mich über die negativen Konsequenzen der Null-Steigung der ReLU wundere. Fängt diese Eigenschaft nicht Einheiten bei Null ein, wo es vorteilhaft sein könnte, ihnen die Möglichkeit der Reaktivierung zu geben?
machine-learning
neural-networks
brockl33
quelle
quelle
Antworten:
Ich habe eine Antwort auf Ihre Frage in Abschnitt 6.3.3 des Deep Learning- Buches gefunden. (Goodfellow et al., 2016):
Um diese Behauptung zu untermauern, zitieren sie die Veröffentlichung Deep Sparse Rectifier Neural Networks (Glorot et al., 2011).
quelle
Gerade bei hohen Lernraten können ReLUs dauerhaft abgeschaltet werden. Dies ist eine Motivation für undichte ReLU- und ELU-Aktivierungen, die fast überall einen Gradienten ungleich Null aufweisen.
Leaky ReLU ist wie ReLU eine stückweise lineare Funktion, die sich schnell berechnen lässt. ELU hat gegenüber Softmax und ReLU den Vorteil, dass die mittlere Ausgabe näher bei Null liegt, was das Lernen verbessert.
quelle