Es gibt einen Unterschied zwischen toten ReLUs und ReLUs, die auf vielen - aber nicht allen - Eingängen stumm sind. Tote ReLUs sind zu vermeiden, wohingegen meist stille ReLUs aufgrund der von ihnen verursachten Sparsamkeit nützlich sein können.
Tote ReLUs haben ein Parameterregime eingegeben, in dem sie sich immer im negativen Bereich der Aktivierungsfunktion befinden. Dies kann beispielsweise passieren, wenn die Vorspannung auf einen großen negativen Wert eingestellt ist. Da die Aktivierungsfunktion für negative Werte Null ist, sind diese Einheiten für alle Eingänge stumm. Wenn eine ReLU stumm ist, ist der Gradient der Verlustfunktion in Bezug auf die Parameter Null, sodass beim gradientenbasierten Lernen keine Parameteraktualisierungen auftreten. Da tote ReLUs für alle Eingaben stumm sind, sind sie in diesem Regime gefangen.
Vergleichen Sie dies mit einer ReLU, die auf vielen, aber nicht allen Eingängen stumm ist. In diesem Fall ist der Gradient immer noch Null, wenn das Gerät leise ist. Wenn wir ein Online-Lernverfahren wie Minibatch / stochastischer Gradientenabstieg verwenden, werden keine Parameteraktualisierungen für Eingaben durchgeführt, die dazu führen, dass das Gerät stumm geschaltet wird. Aktualisierungen sind jedoch weiterhin für andere Eingänge möglich, bei denen das Gerät aktiv ist und der Gradient ungleich Null ist.
Da tote ReLUs für alle Eingaben stumm sind, tragen sie nichts zum Netzwerk bei und werden verschwendet. Aus informationstheoretischer Sicht enthält jede Einheit, die für alle Eingaben (ob Null oder nicht) den gleichen Ausgabewert hat, keine Informationen über die Eingabe. Meist stille ReLUs verhalten sich für verschiedene Eingaben unterschiedlich und behalten daher die Fähigkeit bei, nützliche Informationen zu übertragen.