Per Definition ist Relu max(0,f(x))
. Dann ist sein Gradient definiert als :
1 if x > 0 and 0 if x < 0
.
Würde dies nicht bedeuten, dass der Gradient immer 0 ist (verschwindet), wenn x <0 ist? Warum sagen wir dann, dass Relu nicht unter dem Problem des Verschwindens des Gradienten leidet?
quelle
Verschwinden bedeutet, dass es in Richtung 0 geht, aber niemals wirklich 0 sein wird. Wenn Gradienten von 0 vorliegen, sind Berechnungen sehr einfach. Gradienten nahe 0 bedeuten, dass es Änderungen gibt, nur sehr kleine, die langsames Lernen und numerische Probleme bedeuten. 1 und 0 sind zwei der am einfachsten zu berechnenden Zahlen bei solchen Optimierungsproblemen.
quelle