Warum ist die De-facto-Standard-Sigmoid-Funktion in (nicht-tiefen) neuronalen Netzwerken und logistischen Regressionen so beliebt?
Warum verwenden wir nicht viele der anderen ableitbaren Funktionen mit einer schnelleren Rechenzeit oder einem langsameren Zerfall (so dass der Gradient weniger verschwindet)? In Wikipedia gibt es nur wenige Beispiele für Sigmoidfunktionen . Einer meiner Favoriten mit langsamer Abnahme und schneller Berechnung ist .
BEARBEITEN
Die Frage unterscheidet sich von der umfassenden Liste der Aktivierungsfunktionen in neuronalen Netzen mit Vor- / Nachteilen, da mich nur das Warum und nur das Sigma interessiert.
logistic
neural-networks
least-squares
Mark Horvath
quelle
quelle
Antworten:
Ich zitiere mich aus dieser Antwort auf eine andere Frage:
Dies erklärt, warum dieses Sigma in der logistischen Regression verwendet wird.
In Bezug auf neuronale Netze wird in diesem Blogbeitrag erläutert, wie unterschiedliche Nichtlinearitäten, einschließlich des Logits / Softmax und des Probits, die in neuronalen Netzen verwendet werden, statistisch interpretiert und damit motiviert werden können. Die zugrunde liegende Idee ist, dass ein mehrschichtiges neuronales Netzwerk als eine Hierarchie verallgemeinerter linearer Modelle betrachtet werden kann; Aktivierungsfunktionen sind demnach Verknüpfungsfunktionen, die wiederum unterschiedlichen Verteilungsannahmen entsprechen.
quelle
Ein Grund, warum diese Funktion "natürlicher" erscheint als andere, ist, dass es sich zufällig um die Umkehrung des kanonischen Parameters der Bernoulli-Verteilung handelt: (Die Funktion vonpinnerhalb des Exponenten wird als kanonischer Parameter bezeichnet.)
Eine überzeugendere Rechtfertigung könnte die Informationstheorie sein, in der die Sigmoidfunktion als Maximum-Entropie-Modell hergeleitet werden kann . Grob gesagt nimmt die Sigmoidfunktion eine minimale Struktur an und spiegelt unseren allgemeinen Unkenntnisstand über das zugrunde liegende Modell wider.
quelle
Ich habe mich diese Frage seit Monaten gestellt. Die Antworten auf CrossValidated und Quora zeigen alle nette Eigenschaften der logistischen Sigmoid-Funktion, aber es scheint, als hätten wir diese Funktion klug erraten. Was ich vermisst habe, war die Rechtfertigung für die Wahl. Ich habe endlich einen in Abschnitt 6.2.2.2 des "Deep Learning" -Buches von Bengio (2016) gefunden . In Meinen Eigenen Worten:
Kurz gesagt, wir möchten, dass der Logarithmus der Modellausgabe für eine gradientenbasierte Optimierung der Log-Wahrscheinlichkeit der Trainingsdaten geeignet ist.
Motivation
Warum die logistische Sigmoidfunktion?
Das Abschneiden vonz mit P(Y=1|z)=max{0,min{1,z}} ergibt einen Nullgradienten für z außerhalb von [0,1] . Wir brauchen einen starken Gradienten, wenn die Vorhersage des Modells falsch ist, weil wir die logistische Regression mit dem Gradientenabstieg lösen. Für die logistische Regression gibt es keine geschlossene Lösung.
Die logistische Funktion hat die nette Eigenschaft, einen konstanten Gradienten zu asymptotisieren, wenn die Vorhersage des Modells falsch ist, da wir die Maximum-Likelihood-Schätzung verwenden, um das Modell anzupassen. Dies ist unten gezeigt:
Für numerische Vorteile kann die Maximum-Likelihood-Schätzung durchgeführt werden, indem die negative Log-Likelihood der Trainingsdaten minimiert wird. Unsere Kostenfunktion lautet also:
Alternativen
was so aussieht:
quelle
Da in der ursprünglichen Frage das Problem des abklingenden Gradienten erwähnt wurde, möchte ich nur hinzufügen, dass für Zwischenebenen (bei denen Sie Aktivierungen nicht als Klassenwahrscheinlichkeiten oder Regressionsausgaben interpretieren müssen) andere Nichtlinearitäten häufig Sigmoidfunktionen vorgezogen werden. Die bekanntesten sind Gleichrichterfunktionen (wie bei ReLUs ), die über den positiven Bereich linear und über den negativen Bereich null sind. Einer ihrer Vorteile besteht darin, dass sie dem Problem des abklingenden Gradienten weniger ausgesetzt sind, da die Ableitung über den positiven Bereich konstant ist. ReLUs sind so populär geworden, dass Sigmoide wahrscheinlich nicht mehr als De-facto-Standard bezeichnet werden können.
quelle