Warum müssen Aktivierungsfunktionen monoton sein?

Ich bereite mich gerade auf eine Prüfung über neuronale Netze vor. In mehreren Protokollen aus früheren Untersuchungen habe ich gelesen, dass die Aktivierungsfunktionen von Neuronen (in mehrschichtigen Perzeptronen) monoton sein müssen.

Ich verstehe, dass Aktivierungsfunktionen differenzierbar sein sollten, eine Ableitung haben sollten, die in den meisten Punkten nicht 0 ist, und nicht linear sein sollten. Ich verstehe nicht, warum es wichtig / hilfreich ist, monoton zu sein.

Ich kenne die folgenden Aktivierungsfunktionen und weiß, dass sie monoton sind:

ReLU
Sigmoid
Tanh
Softmax: Ich bin mir nicht sicher, ob die Definition der Monotonie für die Funktionen $f: \mathbb{R}^n \rightarrow \mathbb{R}^m$ mit $n, m > 1$
Softplus
(Identität)

Ich sehe jedoch immer noch keinen Grund, warum zum Beispiel $\varphi(x) = x^2$ .

Warum müssen Aktivierungsfunktionen monoton sein?

(Verwandte Nebenfrage: Gibt es einen Grund, warum der Logarithmus / die Exponentialfunktion nicht als Aktivierungsfunktion verwendet wird?)

machine-learning neural-network Martin Thoma
quelle

Ihrer Information

@MartinThoma Sind Sie sicher, dass Softmax monoton ist?

Medien

Vielen Dank @Media. Um Ihre Frage zu beantworten: Ich bin mir nicht sicher, was "monoton" überhaupt für Funktionen in

mit

. Für

softmax konstant und damit monoton. Aber ohne

für Elemente in

f : R^{n} \to R^{m}

$f:R^n \rightarrow R^m$

m > 1

$m > 1$

m = 1

$m=1$

<

$<$

R^{n}

$R^n$ mit

halte ich Monotonie nicht für sinnvoll.

n > 1

$n>1$

Martin Thoma

@MartinThoma Danke, eigentlich war es auch eine Frage von mir. Ich wusste nicht und weiß immer noch nicht, ob es eine Erweiterung für monotone Funktionen mit mehreren Ausgängen gibt. Mathe-Zeug, weißt du?

Medien

Antworten:

Das Monotonitätskriterium hilft dem neuronalen Netz, sich leichter einem genaueren Klassifikator anzunähern. Weitere Details und Gründe finden Sie in dieser Stapelaustauschantwort und in diesem Wikipedia-Artikel .

Das Monotoniekriterium ist jedoch für eine Aktivierungsfunktion nicht zwingend erforderlich. Es ist auch möglich, neuronale Netze mit nicht-monotonen Aktivierungsfunktionen zu trainieren. Es wird nur schwieriger, das neuronale Netzwerk zu optimieren. Siehe Yoshua Bengios Antwort .

David Dao
quelle

-1

Ich werde einen mathematischeren Grund dafür nennen, warum es hilfreich ist, eine monotone Funktion zu haben!

Verwenden wir http://mathonline.wikidot.com/lebesgue-s-theorem-for-the-differentiability-of-monotone-fun verwenden und davon ausgehen, dass unsere Aktivierungsfunktion monoton ist, können wir sagen, dass unsere Funktion auf der realen Linie sein wird differenzierbar. Der Gradient der Aktivierungsfunktion ist also keine fehlerhafte Funktion. Es wird einfacher sein, die von uns gesuchten Minima zu finden. (rechnerisch günstig)

Exponential- und Logarithmusfunktionen sind schöne Funktionen, aber nicht begrenzt (Das Gegenteil des Lebesgue-Theorems ist also nicht wahr, da Exp und Log differenzierbare Funktionen sind, die nicht an die reale Linie gebunden sind). Sie scheitern also, wenn wir unsere Beispiele im Endstadium klassifizieren wollen. Sigmoid und Tanh funktionieren sehr gut, weil sie leicht zu berechnende Gradienten haben und einen Bereich von (0,1) bzw. (-1,1) haben.

Rohit Rawat
quelle

Es gibt unendlich viele differenzierbare, aber nicht monotone Funktionen. Warum hilft eine monotone Funktion?

Martin Thoma