Was sind die Vorteile von ReLU gegenüber Leaky ReLU und Parametric ReLU (falls vorhanden)?

10

Ich denke, dass der Vorteil der Verwendung von Leaky ReLU anstelle von ReLU darin besteht, dass wir auf diese Weise keinen verschwindenden Gradienten haben können. Die parametrische ReLU hat den gleichen Vorteil mit dem einzigen Unterschied, dass die Steigung des Ausgangs für negative Eingänge ein lernbarer Parameter ist, während sie in der Leaky ReLU ein Hyperparameter ist.

Ich kann jedoch nicht feststellen, ob es Fälle gibt, in denen die Verwendung von ReLU anstelle von Leaky ReLU oder Parametric ReLU bequemer ist.

gvgramazio
quelle

Antworten:

7

Die Kombination von ReLU, der hyperparametrisierten 1- Leck-Variante und der Variante mit dynamischer Parametrisierung während des Lernens verwirrt zwei verschiedene Dinge:

  • Der Vergleich zwischen ReLU und der undichten Variante hängt eng damit zusammen, ob im vorliegenden ML-Fall eine Sättigung vermieden werden muss. Die Sättigung ist der Signalverlust entweder auf den Gradienten 2 Null oder die Dominanz des chaotischen Rauschens, das sich aus dem digitalen ergibt Rundung 3 .
  • Der Vergleich zwischen trainingsdynamischer Aktivierung ( in der Literatur als parametrisch bezeichnet ) und trainingsstatischer Aktivierung muss darauf beruhen, ob die nichtlinearen oder nicht glatten Aktivierungseigenschaften einen Wert haben, der sich auf die Konvergenzrate bezieht 4 .

Der Grund, warum ReLU niemals parametrisch ist, ist, dass es überflüssig wäre, dies so zu machen. Im negativen Bereich ist es die Konstante Null. Im nicht negativen Bereich ist seine Ableitung konstant. Da der Aktivierungseingabevektor bereits mit einem Vektormatrixprodukt abgeschwächt ist (wobei die Matrix, der Würfel oder der Hyperwürfel die Abschwächungsparameter enthält), besteht kein nützlicher Zweck darin, einen Parameter hinzuzufügen, um die konstante Ableitung für die nicht negative Domäne zu variieren .

Wenn die Aktivierung eine Krümmung aufweist, ist es nicht mehr wahr, dass alle Aktivierungskoeffizienten als Parameter redundant sind. Ihre Werte können den Trainingsprozess und damit die Geschwindigkeit und Zuverlässigkeit der Konvergenz erheblich verändern.

Bei im Wesentlichen tiefen Netzwerken tritt die Redundanz wieder auf, und es gibt Hinweise darauf, sowohl in der Theorie als auch in der Praxis in der Literatur.

  • In algebraischer Hinsicht nähert sich die Disparität zwischen ReLU und daraus abgeleiteten parametrisch dynamischen Aktivierungen Null, wenn sich die Tiefe (in Anzahl der Schichten) der Unendlichkeit nähert.
  • In beschreibenden Begriffen kann ReLU Funktionen mit der Krümmung 5 genau approximieren, wenn eine ausreichende Anzahl von Schichten dafür gegeben ist.

Aus diesem Grund wird die ELU-Variante, die zur Abwendung der oben genannten Sättigungsprobleme für flachere Netze vorteilhaft ist, nicht für tiefere Netze verwendet.

Man muss also zwei Dinge entscheiden.

  • Ob eine parametrische Aktivierung hilfreich ist, basiert häufig auf Experimenten mit mehreren Proben aus einer statistischen Population. Es ist jedoch überhaupt nicht erforderlich, damit zu experimentieren, wenn die Schichttiefe hoch ist.
  • Ob die undichte Variante von Wert ist, hat viel mit den numerischen Bereichen zu tun, die während der Rückausbreitung auftreten. Wenn der Gradient während der Rückausbreitung zu irgendeinem Zeitpunkt während des Trainings verschwindend klein wird, kann ein konstanter Teil der Aktivierungskurve problematisch sein. In einem solchen Fall kann eine der glatten Funktionen oder die undichte RelU mit ihren zwei Steigungen ungleich Null eine adäquate Lösung liefern.

Zusammenfassend ist die Wahl niemals eine Wahl der Bequemlichkeit.


Fußnoten

[1] Hyperparameter sind Parameter, die die Signalisierung durch die Schicht beeinflussen und nicht Teil der Dämpfung von Eingaben für diese Schicht sind. Die Dämpfungsgewichte sind Parameter. Jede andere Parametrisierung befindet sich im Satz von Hyperparametern. Dies kann Lernrate, Dämpfung hoher Frequenzen bei der Rückausbreitung und eine Vielzahl anderer Lernsteuerungen umfassen, die für die gesamte Schicht, wenn nicht das gesamte Netzwerk eingestellt sind.

[2] Wenn der Gradient Null ist, kann es keine intelligente Einstellung der Parameter geben, da die Richtung der Einstellung unbekannt ist und ihre Größe Null sein muss. Das Lernen hört auf.

[3] Wenn chaotisches Rauschen, das auftreten kann, wenn die CPU extrem kleine Werte auf ihre nächste digitale Darstellung rundet, das Korrektursignal dominiert, das sich zurück zu den Schichten ausbreiten soll, wird die Korrektur zu Unsinn und das Lernen stoppt.

[4] Die Konvergenzrate ist ein Maß für die Geschwindigkeit (entweder relativ zu Mikrosekunden oder relativ zum Iterationsindex des Algorithmus), bei der sich das Lernergebnis (Systemverhalten) dem nähert, was als gut genug angesehen wird. Dies ist normalerweise eine bestimmte Nähe zu einigen formalen Akzeptanzkriterien für die Konvergenz (Lernen).

[5] Funktionen mit Krümmung sind solche, die nicht als gerade oder flach dargestellt werden. Eine Parabel hat eine Krümmung. Eine gerade Linie nicht. Die Oberfläche eines Eies ist gekrümmt. Ein perfektes flaches Flugzeug nicht. Wenn eines der Elemente des Hessischen der Funktion ungleich Null ist, hat die Funktion mathematisch eine Krümmung.

FauChristian
quelle
Was meinst du mit Die Wahl ist niemals eine Wahl der Bequemlichkeit ?
Gvgramazio
@gvgramazio, Sie hatten in Ihrer Frage geschrieben, "ReLU ist bequemer zu verwenden". Ich habe darauf hingewiesen, dass Bequemlichkeit nicht die Grundlage ist, auf der die Wahl getroffen wird. Vielleicht kommt es zu hart raus? Das wollte ich nicht sein. Die Sätze über diesem Satz in meiner Antwort sollten die nützlicheren Kriterien liefern, auf die Sie Ihre Entscheidung bei der Auswahl der Aktivierungsfunktionen stützen können.
FauChristian
Mach dir keine Sorgen, dass ich zu hart bin, für mich überhaupt kein Problem. Ich denke, das ist eher ein Sprachproblem (ich bin kein englischer Muttersprachler).
Gvgramazio
Tatsache ist, dass Sie nach meinem Verständnis gut erklären, in welchem ​​Fall ich eine Variante gegenüber den anderen bevorzugen sollte. Was ich immer noch nicht verstehe, ist, wann ich die klassische bevorzugen sollte. zB kann die undichte Variante eine adäquate Lösung für das Verschwinden des Gradienten bieten, aber wenn sie keinen Nachteil hat, könnte ich immer die undichte Variante in Bezug auf die ReLU wählen.
Gvgramazio
@ FauChristian können Sie bitte einige umgangssprachliche Begriffe und Intuitionen hinzufügen, ich bin nicht so vertraut mit mathematischer Sprache :)
DuttaA