Warum werden Aktivierungsfunktionen von gleichgerichteten Lineareinheiten (ReLU) als nicht linear betrachtet?
Sie sind linear, wenn der Eingang positiv ist, und nach meinem Verständnis sind nichtlineare Aktivierungen ein Muss, um die repräsentative Kraft tiefer Netzwerke freizuschalten. Andernfalls könnte das gesamte Netzwerk durch eine einzelne Schicht dargestellt werden.
Antworten:
RELUs sind Nichtlinearitäten. Stellen Sie sich zur Unterstützung Ihrer Intuition ein sehr einfaches Netzwerk mit 1 Eingabeeinheitx , 2 versteckten Einheiten yich und 1 Ausgabeeinheit z . Mit diesem einfachen Netzwerk können wir eine Absolutwertfunktion implementieren,
oder etwas, das der häufig verwendeten Sigmoid-Funktion ähnelt,
Indem wir diese in größeren Netzwerken kombinieren / mehr versteckte Einheiten verwenden, können wir beliebige Funktionen approximieren.
quelle
reLu(reLu(....))
, wird es immer linear sein? Auch hier ändern Siex
zux+1
, das könnte gedacht werden,Z=Wx+b
wo W & B ändert, um verschiedene Varianten solcher Art zu gebenx
&x+1
?