Relu hat per Definition einen Gradienten von 0, warum ist das Verschwinden des Gradienten dann kein Problem für x <0?

10

Per Definition ist Relu max(0,f(x)). Dann ist sein Gradient definiert als : 1 if x > 0 and 0 if x < 0.

Würde dies nicht bedeuten, dass der Gradient immer 0 ist (verschwindet), wenn x <0 ist? Warum sagen wir dann, dass Relu nicht unter dem Problem des Verschwindens des Gradienten leidet?

deep-learning Edamame
quelle

5

Du hast meistens recht! ReLU hat ein Problem mit dem Verschwinden des Gradienten, aber nur auf einer Seite, daher nennen wir es etwas anderes: das "sterbende ReLU-Problem". Weitere Informationen finden Sie in dieser Stapelüberlaufantwort: Was ist das "sterbende ReLU" -Problem in neuronalen Netzen?

Es ist ein kleiner semantischer Unterschied. Viele Funktionen (tanh und logistic / sigmoid) haben Ableitungen, die sehr nahe bei Null liegen, wenn Sie sich außerhalb des Standardbetriebsbereichs befinden. Dies ist das Problem des "verschwindenden Gefälles". Je schlimmer du wirst, desto schwieriger ist es, wieder in die gute Zone zu gelangen. ReLU wird nicht schlechter, je weiter Sie sich in der positiven Richtung befinden, also kein verschwindendes Gradientenproblem (auf dieser Seite). Diese Asymmetrie mag ausreichen, um es als etwas anderes zu bezeichnen, aber die Ideen sind ziemlich ähnlich.

Joseph Catrambone
quelle

2

Erwähnenswert: Das Problem des verschwindenden Gradienten betrifft in der Regel progressive Änderungen über die Tiefe eines Netzwerks und nicht direkt die Eigenschaften von Neuronentransferfunktionen.

Neil Slater

1

Verschwinden bedeutet, dass es in Richtung 0 geht, aber niemals wirklich 0 sein wird. Wenn Gradienten von 0 vorliegen, sind Berechnungen sehr einfach. Gradienten nahe 0 bedeuten, dass es Änderungen gibt, nur sehr kleine, die langsames Lernen und numerische Probleme bedeuten. 1 und 0 sind zwei der am einfachsten zu berechnenden Zahlen bei solchen Optimierungsproblemen.

Jan van der Vegt
quelle

Relu hat per Definition einen Gradienten von 0, warum ist das Verschwinden des Gradienten dann kein Problem für x <0?

Antworten: