Ich habe die Abhandlung ImageNet Classification with Deep Convolutional Neural Networks gelesen und in Abschnitt 3 wurde die Architektur ihres Convolutional Neural Network erläutert, wie sie es vorzogen:
nicht sättigende Nichtlinearität
weil es schneller war zu trainieren. In dieser Arbeit scheinen sie sich auf gesättigte Nichtlinearitäten als die traditionelleren Funktionen zu beziehen, die in CNNs, den Sigmoid- und den hyperbolischen Tangensfunktionen verwendet werden (dh und als gesättigt).
Warum bezeichnen sie diese Funktionen als "Sättigen" oder "Nicht-Sättigen"? In welchem Sinne sind diese Funktionen "gesättigt" oder "nicht gesättigt"? Was bedeuten diese Begriffe im Kontext von Faltungs-Neuronalen Netzen? Werden sie in anderen Bereichen des maschinellen Lernens (und der Statistik) verwendet?
quelle
Antworten:
Intuition
Eine Sättigungsaktivierungsfunktion drückt den Eingang zusammen.
Definitionen
Diese Definitionen sind nicht spezifisch für neuronale Faltungsnetze.
Beispiele
Die Aktivierungsfunktion der gleichgerichteten Lineareinheit (Rectified Linear Unit, ReLU), die als ist ist nicht gesättigt, da :f( x ) = m a x ( 0 , x ) limz→ + ∞f( z) = + ∞
Die Sigma-Aktivierungsfunktion, die als ist, ist gesättigt, weil sie reelle Zahlen in einem Bereich zwischen :f( x ) = 11 + e- x [ 0 , 1 ]
Die tanh-Aktivierungsfunktion (hyperbolische Tangente) ist gesättigt, da sie reelle Zahlen in einem Bereich zwischen :[ - 1 , 1 ]
(Zahlen stammen aus CS231n , MIT-Lizenz)
quelle
Die häufigsten Aktivierungsfunktionen sind LOG und TanH. Diese Funktionen haben einen kompakten Bereich, was bedeutet, dass sie die neuronale Antwort in eine begrenzte Teilmenge der reellen Zahlen komprimieren. Das LOG komprimiert Eingänge zu Ausgängen zwischen 0 und 1, die TAN H zwischen -1 und 1. Diese Funktionen zeigen ein begrenzendes Verhalten an den Grenzen.
An der Grenze ist der Gradient der Ausgabe in Bezug auf die Eingabe ∂yj / ∂xj sehr klein. Gradient ist also klein, daher kleine Schritte bis zur Konvergenz, daher längere Zeit bis zur Konvergenz.
quelle