Was sind die Vorteile von ReLU gegenüber Softplus als Aktivierungsfunktionen?

21

Es wird oft erwähnt, dass gleichgerichtete Lineareinheiten (ReLU) Softplus-Einheiten abgelöst haben, weil sie linear sind und schneller berechnet werden können.

Hat softplus it noch den Vorteil der Sparity-Induktion oder ist das auf die ReLU beschränkt?

Der Grund, den ich frage, ist, dass ich mich über die negativen Konsequenzen der Null-Steigung der ReLU wundere. Fängt diese Eigenschaft nicht Einheiten bei Null ein, wo es vorteilhaft sein könnte, ihnen die Möglichkeit der Reaktivierung zu geben?

brockl33
quelle
Hast du jemals die Antwort darauf gefunden?
Charlie Parker

Antworten:

4

Ich habe eine Antwort auf Ihre Frage in Abschnitt 6.3.3 des Deep Learning- Buches gefunden. (Goodfellow et al., 2016):

Von der Verwendung von softplus wird generell abgeraten. ... könnte man erwarten, dass es einen Vorteil gegenüber dem Gleichrichter hat, weil es überall differenzierbar ist oder weil es weniger vollständig gesättigt ist, aber empirisch ist dies nicht der Fall.

Um diese Behauptung zu untermauern, zitieren sie die Veröffentlichung Deep Sparse Rectifier Neural Networks (Glorot et al., 2011).

Alexander Shchur
quelle
1
Ich denke, wir brauchen weitere Erläuterungen zu "aber empirisch ist dies nicht der Fall".
Nr. 20.10. Um
2

Gerade bei hohen Lernraten können ReLUs dauerhaft abgeschaltet werden. Dies ist eine Motivation für undichte ReLU- und ELU-Aktivierungen, die fast überall einen Gradienten ungleich Null aufweisen.

Leaky ReLU ist wie ReLU eine stückweise lineare Funktion, die sich schnell berechnen lässt. ELU hat gegenüber Softmax und ReLU den Vorteil, dass die mittlere Ausgabe näher bei Null liegt, was das Lernen verbessert.

Hugh Perkins
quelle
Was bedeutet es "fast überall"?
Nr. 20.10. Um
1
"Fast überall" ist ein Fachbegriff, der so etwas wie "außer an einigen unendlich kleinen Stellen" bedeutet. Beispielsweise ist für eine undichte ReLU kein Gradient bei x = 0 definiert.
Hugh Perkins