Enthält ein optimal entworfenes neuronales Netzwerk beim Training keine „toten“ ReLU-Neuronen?

8

Sollte ich mein neuronales Netzwerk im Allgemeinen mit weniger Neuronen neu trainieren, damit es weniger tote ReLU-Neuronen hat? Ich habe widersprüchliche Meinungen über tote ReLUs gelesen. Einige Quellen sagen, dass tote ReLUs gut sind, weil sie die Sparsamkeit fördern. Andere sagen, dass sie schlecht sind, weil tote ReLUs für immer tot sind und das Lernen behindern. Gibt es ein fröhliches Medium?

Ryan Zotti
quelle

Antworten:

7

Es gibt einen Unterschied zwischen toten ReLUs und ReLUs, die auf vielen - aber nicht allen - Eingängen stumm sind. Tote ReLUs sind zu vermeiden, wohingegen meist stille ReLUs aufgrund der von ihnen verursachten Sparsamkeit nützlich sein können.

Tote ReLUs haben ein Parameterregime eingegeben, in dem sie sich immer im negativen Bereich der Aktivierungsfunktion befinden. Dies kann beispielsweise passieren, wenn die Vorspannung auf einen großen negativen Wert eingestellt ist. Da die Aktivierungsfunktion für negative Werte Null ist, sind diese Einheiten für alle Eingänge stumm. Wenn eine ReLU stumm ist, ist der Gradient der Verlustfunktion in Bezug auf die Parameter Null, sodass beim gradientenbasierten Lernen keine Parameteraktualisierungen auftreten. Da tote ReLUs für alle Eingaben stumm sind, sind sie in diesem Regime gefangen.

Vergleichen Sie dies mit einer ReLU, die auf vielen, aber nicht allen Eingängen stumm ist. In diesem Fall ist der Gradient immer noch Null, wenn das Gerät leise ist. Wenn wir ein Online-Lernverfahren wie Minibatch / stochastischer Gradientenabstieg verwenden, werden keine Parameteraktualisierungen für Eingaben durchgeführt, die dazu führen, dass das Gerät stumm geschaltet wird. Aktualisierungen sind jedoch weiterhin für andere Eingänge möglich, bei denen das Gerät aktiv ist und der Gradient ungleich Null ist.

Da tote ReLUs für alle Eingaben stumm sind, tragen sie nichts zum Netzwerk bei und werden verschwendet. Aus informationstheoretischer Sicht enthält jede Einheit, die für alle Eingaben (ob Null oder nicht) den gleichen Ausgabewert hat, keine Informationen über die Eingabe. Meist stille ReLUs verhalten sich für verschiedene Eingaben unterschiedlich und behalten daher die Fähigkeit bei, nützliche Informationen zu übertragen.

user20160
quelle