Warum ist eine undichte ReLU angesichts des Nullgradienten für x <0 nicht immer der ReLU vorzuziehen?

7

Es sieht für mich so aus, als ob die undichte ReLU eine viel bessere Leistung haben sollte, da die Standard-ReLU nicht die Hälfte ihres Speicherplatzes nutzen kann (x <0, wenn der Gradient Null ist). Dies ist jedoch nicht der Fall und in der Praxis verwenden die meisten Benutzer Standard-ReLU.

Brans Ds
quelle
1
Ihre Frage verwirrt mich, was genau möchten Sie wissen? Sie können auch die Überschrift kürzen und mehr in den Inhalt einfügen. Was meinst du mit "alle" verwenden? Meinen Sie generische Unternehmen? Sie erwähnen, dass undichte ReLU im Inhalt der Frage eine bessere Leistung erbringen sollte, widersprechen sich jedoch in der Überschrift.
Hima Varsha

Antworten:

11

Ein Grund für die Einführung von ReL-Einheiten besteht darin, das Problem des Verschwindens von Gradienten von Sigmoid-Einheiten bei -1 und 1 zu umgehen.

Ein weiterer Vorteil von ReL-Einheiten besteht darin, dass sie bei genau 0 gesättigt sind, was spärliche Darstellungen ermöglicht. Dies kann hilfreich sein, wenn versteckte Einheiten als Eingabe für einen Klassifikator verwendet werden. Der Nullgradient kann in Fällen problematisch sein, in denen die Einheit in einem gradientenbasierten Szenario niemals aktiviert wird, wenn die Einheit anfänglich nicht aktiviert ist.

Dieses Problem kann durch die Verwendung von undichten ReL-Einheiten behoben werden. Auf der anderen Seite können undichte ReL-Einheiten keine spärliche Darstellung mit Null erstellen, was in bestimmten Fällen nützlich sein kann. Es gibt also einen gewissen Kompromiss, und wie im Allgemeinen bei NN hängt es von den Anwendungsfällen ab, in denen das Gerät eine bessere Leistung erbringt. In den meisten Fällen würde man erwarten, dass ReL und undichte Rel-Einheiten sehr ähnlich funktionieren, wenn die anfänglichen Einstellungen sicherstellen können, dass die ReL-Einheit aktiviert ist (z. B. indem die Vorspannungen auf kleine positive Werte eingestellt werden).

Außerdem führt undichte RelU (falls parametrisch) einen weiteren Parameter ein (die Steigung für x<0), die während des Trainings gelernt werden müssen und daher mehr Komplexität / Trainingszeit hinzufügen.

oW_
quelle