Ich bereite mich gerade auf eine Prüfung über neuronale Netze vor. In mehreren Protokollen aus früheren Untersuchungen habe ich gelesen, dass die Aktivierungsfunktionen von Neuronen (in mehrschichtigen Perzeptronen) monoton sein müssen.
Ich verstehe, dass Aktivierungsfunktionen differenzierbar sein sollten, eine Ableitung haben sollten, die in den meisten Punkten nicht 0 ist, und nicht linear sein sollten. Ich verstehe nicht, warum es wichtig / hilfreich ist, monoton zu sein.
Ich kenne die folgenden Aktivierungsfunktionen und weiß, dass sie monoton sind:
- ReLU
- Sigmoid
- Tanh
- Softmax: Ich bin mir nicht sicher, ob die Definition der Monotonie für die Funktionen mit
- Softplus
- (Identität)
Ich sehe jedoch immer noch keinen Grund, warum zum Beispiel .
Warum müssen Aktivierungsfunktionen monoton sein?
(Verwandte Nebenfrage: Gibt es einen Grund, warum der Logarithmus / die Exponentialfunktion nicht als Aktivierungsfunktion verwendet wird?)
quelle
Antworten:
Das Monotonitätskriterium hilft dem neuronalen Netz, sich leichter einem genaueren Klassifikator anzunähern. Weitere Details und Gründe finden Sie in dieser Stapelaustauschantwort und in diesem Wikipedia-Artikel .
Das Monotoniekriterium ist jedoch für eine Aktivierungsfunktion nicht zwingend erforderlich. Es ist auch möglich, neuronale Netze mit nicht-monotonen Aktivierungsfunktionen zu trainieren. Es wird nur schwieriger, das neuronale Netzwerk zu optimieren. Siehe Yoshua Bengios Antwort .
quelle
Ich werde einen mathematischeren Grund dafür nennen, warum es hilfreich ist, eine monotone Funktion zu haben!
Verwenden wir http://mathonline.wikidot.com/lebesgue-s-theorem-for-the-differentiability-of-monotone-fun verwenden und davon ausgehen, dass unsere Aktivierungsfunktion monoton ist, können wir sagen, dass unsere Funktion auf der realen Linie sein wird differenzierbar. Der Gradient der Aktivierungsfunktion ist also keine fehlerhafte Funktion. Es wird einfacher sein, die von uns gesuchten Minima zu finden. (rechnerisch günstig)
Exponential- und Logarithmusfunktionen sind schöne Funktionen, aber nicht begrenzt (Das Gegenteil des Lebesgue-Theorems ist also nicht wahr, da Exp und Log differenzierbare Funktionen sind, die nicht an die reale Linie gebunden sind). Sie scheitern also, wenn wir unsere Beispiele im Endstadium klassifizieren wollen. Sigmoid und Tanh funktionieren sehr gut, weil sie leicht zu berechnende Gradienten haben und einen Bereich von (0,1) bzw. (-1,1) haben.
quelle