Es sieht für mich so aus, als ob die undichte ReLU eine viel bessere Leistung haben sollte, da die Standard-ReLU nicht die Hälfte ihres Speicherplatzes nutzen kann (x <0, wenn der Gradient Null ist). Dies ist jedoch nicht der Fall und in der Praxis verwenden die meisten Benutzer Standard-ReLU.
neural-network
gradient-descent
Brans Ds
quelle
quelle
Antworten:
Ein Grund für die Einführung von ReL-Einheiten besteht darin, das Problem des Verschwindens von Gradienten von Sigmoid-Einheiten bei -1 und 1 zu umgehen.
Ein weiterer Vorteil von ReL-Einheiten besteht darin, dass sie bei genau 0 gesättigt sind, was spärliche Darstellungen ermöglicht. Dies kann hilfreich sein, wenn versteckte Einheiten als Eingabe für einen Klassifikator verwendet werden. Der Nullgradient kann in Fällen problematisch sein, in denen die Einheit in einem gradientenbasierten Szenario niemals aktiviert wird, wenn die Einheit anfänglich nicht aktiviert ist.
Dieses Problem kann durch die Verwendung von undichten ReL-Einheiten behoben werden. Auf der anderen Seite können undichte ReL-Einheiten keine spärliche Darstellung mit Null erstellen, was in bestimmten Fällen nützlich sein kann. Es gibt also einen gewissen Kompromiss, und wie im Allgemeinen bei NN hängt es von den Anwendungsfällen ab, in denen das Gerät eine bessere Leistung erbringt. In den meisten Fällen würde man erwarten, dass ReL und undichte Rel-Einheiten sehr ähnlich funktionieren, wenn die anfänglichen Einstellungen sicherstellen können, dass die ReL-Einheit aktiviert ist (z. B. indem die Vorspannungen auf kleine positive Werte eingestellt werden).
Außerdem führt undichte RelU (falls parametrisch) einen weiteren Parameter ein (die Steigung fürx < 0 ), die während des Trainings gelernt werden müssen und daher mehr Komplexität / Trainingszeit hinzufügen.
quelle