In der Mathematik wird eine Funktion immer dann als linear betrachtet, wenn eine Funktion für jedes und in der Domäne die folgende Eigenschaft hat: . Per Definition ist die ReLU . Wenn wir also die Domäne von oder ist die Funktion linear. Es ist jedoch leicht zu erkennen, dass . Daher ist ReLU per Definition nicht linear. f: A → BxyEINf( x ) + f( y) = f( x + y)m a x ( 0 , x )( - ∞ , 0 ][ 0 , ∞ )f( - 1 ) + f( 1 ) ≠ f( 0 )
Trotzdem ist ReLU so nah an der Linearität, dass die Menschen oft verwirrt sind und sich fragen, wie es als universeller Approximator verwendet werden kann. Meiner Erfahrung nach ist die beste Art, über sie nachzudenken, Riemannsche Summen. Sie können beliebige stetige Funktionen mit vielen kleinen Rechtecken approximieren. ReLU-Aktivierungen können viele kleine Rechtecke erzeugen. Tatsächlich kann ReLU in der Praxis ziemlich komplizierte Formen erstellen und viele komplizierte Bereiche approximieren.
Ich möchte noch einen weiteren Punkt klarstellen. Wie bereits in einer früheren Antwort erwähnt, sterben Neuronen nicht in Sigmoid, sondern verschwinden. Der Grund dafür ist, dass die Ableitung der Sigmoidfunktion maximal 0,25 beträgt. Nach so vielen Schichten multiplizieren Sie diese Verläufe und das Produkt von sehr kleinen Zahlen unter 1 geht sehr schnell gegen Null.
Wenn Sie also ein tiefgreifendes Lernnetzwerk mit vielen Ebenen aufbauen, werden Ihre Sigmoid-Funktionen im Wesentlichen ziemlich schnell stagnieren und mehr oder weniger unbrauchbar.
Der entscheidende Vorteil ist, dass das Verschwinden von der Multiplikation der Farbverläufe und nicht von den Farbverläufen selbst herrührt.