Warum werden gleichgerichtete Lineareinheiten als nichtlinear betrachtet?

Warum werden Aktivierungsfunktionen von gleichgerichteten Lineareinheiten (ReLU) als nicht linear betrachtet?

f (x) = max (0, x)

$f(x) = \max(0,x)$

Sie sind linear, wenn der Eingang positiv ist, und nach meinem Verständnis sind nichtlineare Aktivierungen ein Muss, um die repräsentative Kraft tiefer Netzwerke freizuschalten. Andernfalls könnte das gesamte Netzwerk durch eine einzelne Schicht dargestellt werden.

neural-networks deep-learning Aly
quelle

Es gibt eine ähnliche Frage vor gestellt: stats.stackexchange.com/questions/275358/…, obwohl es wahrscheinlich kein Duplikat ist

Aksakal

Antworten:

RELUs sind Nichtlinearitäten. Stellen Sie sich zur Unterstützung Ihrer Intuition ein sehr einfaches Netzwerk mit 1 Eingabeeinheit $x$ , 2 versteckten Einheiten $y_i$ und 1 Ausgabeeinheit $z$ . Mit diesem einfachen Netzwerk können wir eine Absolutwertfunktion implementieren,

z = max (0, x) + max (0, - x),

$z = \max(0, x) + \max(0, -x),$

oder etwas, das der häufig verwendeten Sigmoid-Funktion ähnelt,

z = max (0, x + 1) - max (0, x - 1) .

$z = \max(0, x + 1) - \max(0, x - 1).$

Indem wir diese in größeren Netzwerken kombinieren / mehr versteckte Einheiten verwenden, können wir beliebige Funktionen approximieren.

$\hskip2in$ RELU Netzwerkfunktion

Lucas
quelle

Würden diese handgefertigten ReLus-Typen von vornherein gebaut und als Ebenen fest codiert werden? Wenn ja, woher wissen Sie, dass Ihr Netzwerk speziell einen dieser speziell gebauten ReLus benötigt?

Monica Heddneck

@MonicaHeddneck Sie könnten Ihre eigenen Nichtlinearitäten angeben, ja. Was eine Aktivierungsfunktion besser macht als eine andere, ist ein ständiges Forschungsthema. Zum Beispiel verwendeten wir Sigmoide, , aber dann wurden ReLUs aufgrund des Problems des verschwindenden Gradienten immer beliebter. Es liegt also an Ihnen, verschiedene Funktionen zur Aktivierung der Nichtlinearität zu verwenden.

σ (x) = \frac{1}{1 + e^{- x}}

$\sigma(x) = \frac{1}{1 + e^{-x}}$

Tarin Ziyaee

Wie würden Sie mit ReLU in der Stichprobe approximieren?

e^{x}

$e^x$

Aksakal

@Lucas, Wenn also (+)> 1 ReLUs kombiniert werden, können wir uns jeder Funktion annähern, aber wenn wir es einfach tun reLu(reLu(....)), wird es immer linear sein? Auch hier ändern Sie xzu x+1, das könnte gedacht werden, Z=Wx+bwo W & B ändert, um verschiedene Varianten solcher Art zu geben x& x+1?

Anu