Hier bezieht sich die Antwort auf das Verschwinden und Explodieren von Verläufen, die sigmoid
ähnliche Aktivierungsfunktionen hatten, aber Relu
einen Nachteil haben und deren erwarteter Wert sind. Es gibt keine Begrenzung für die Ausgabe von Relu
und daher ist der erwartete Wert nicht Null. Ich erinnere mich an die Zeit vor der Popularität Relu
, tanh
die unter Experten für maschinelles Lernen am beliebtesten war sigmoid
. Der Grund war, dass der erwartete Wert von tanh
gleich Null war und es half, in tieferen Schichten zu lernen, schneller in einem neuronalen Netz zu sein. Relu
hat diese Eigenschaft nicht, aber warum funktioniert es so gut, wenn wir seinen derivativen Vorteil beiseite legen. Darüber hinaus denke ich, dass das Derivat auch betroffen sein kann. Weil die Aktivierungen (Ausgabe vonRelu
) sind an der Berechnung der Fortschreibungsregeln beteiligt.
17
CNN
Normalisierung ist die Ausgabe derrelu
nicht üblich? Zumindest habe ich das noch nie gesehen.Antworten:
Der größte Vorteil von relu ist in der Tat nicht-Sättigung seines Gradienten, die stark um die Konvergenz von stochastischen Gradientenabstieg beschleunigen im Vergleich zu der Sigmoid / tanh - Funktionen ( Papier durch Krizhevsky et al).
Dies ist jedoch nicht der einzige Vorteil. Hier ist eine Diskussion der Sparsity-Effekte von ReLu-Aktivierungen und induzierter Regularisierung. Eine weitere nette Eigenschaft ist, dass im Vergleich zu tanh / sigmoiden Neuronen, die teure Operationen (Exponentiale usw.) beinhalten, die ReLU implementiert werden kann, indem einfach eine Aktivierungsmatrix auf Null gesetzt wird.
Ich bin jedoch nicht davon überzeugt, dass der große Erfolg moderner neuronaler Netze allein ReLu zu verdanken ist . Neue Initialisierungstechniken wie Xavier-Initialisierung, Dropout und (spätere) Batchnorm spielten ebenfalls eine sehr wichtige Rolle. Das berühmte AlexNet verwendete beispielsweise ReLu und Dropout.
Um Ihre Frage zu beantworten: ReLu hat sehr schöne Eigenschaften, wenn auch nicht ideal . Aber es beweist sich wirklich, wenn es mit anderen großartigen Techniken kombiniert wird, die im Übrigen das von Ihnen erwähnte Nicht-Null-Zentrum-Problem lösen.
UPD: Die ReLu-Ausgabe ist in der Tat nicht nullzentriert und beeinträchtigt die NN-Leistung. Dieses spezielle Problem kann jedoch durch andere Regularisierungstechniken gelöst werden, z. B. Batchnorm, mit der das Signal vor der Aktivierung normalisiert wird :
quelle