Wie flexibel ist die Verbindung zwischen Zielfunktion und Aktivierungsfunktion der Ausgangsschicht?

In vielen neuronalen Netzwerkpaketen scheint es Standard zu sein, die zu minimierende Zielfunktion mit der Aktivierungsfunktion in der Ausgabeschicht zu koppeln.

Zum Beispiel ist es für eine lineare Ausgabeschicht, die für die Regression verwendet wird, Standard (und oft nur die Wahl), eine quadratische Fehlerzielfunktion zu haben. Eine andere übliche Paarung ist die logistische Ausgabe und der Protokollverlust (oder die Kreuzentropie). Und noch ein anderer ist Softmax und Multi Log Loss.

Unter Verwendung der Notation für den Voraktivierungswert (Summe der Gewichte mal Aktivierungen aus der vorherigen Schicht), für die Aktivierung, für die für das Training verwendete Grundwahrheit, für den Index des Ausgangsneurons. $z$ $a$ $y$ $i$

Die lineare Aktivierung geht mit dem quadratischen Fehler $a_i=z_i$ $\frac{1}{2} \sum\limits_{\forall i} (y_i-a_i)^2$
Die Sigmoidaktivierung geht mit dem Ziel Logloss / Cross-Entropy einher $a_i = \frac{1}{1+e^{-z_i}}$ $-\sum\limits_{\forall i} (y_i*log(a_i) + (1-y_i)*log(1-a_i))$
Die Softmax-Aktivierung geht mit dem Protokollverlustziel für mehrere Klassen einher limit $a_i = \frac{e^{z_i}}{\sum_{\forall j} e^{z_j}}$ $-\sum\limits_{\forall i} (y_i*log(a_i))$

Das sind die, die ich kenne, und ich gehe davon aus, dass es viele gibt, von denen ich noch nichts gehört habe.

Es scheint, dass der Protokollverlust nur funktionieren und numerisch stabil sein würde, wenn die Ausgabe und die Ziele im Bereich [0,1] liegen. Daher ist es möglicherweise nicht sinnvoll, eine lineare Ausgabeschicht mit einer logarithmischen Zielfunktion zu versuchen. Es sei denn, es gibt eine allgemeinere Logloss-Funktion, die mit Werten von umgehen kann , die außerhalb des Bereichs liegen? $y$

Es scheint jedoch nicht ganz so schlimm zu sein, die Sigmoid-Ausgabe mit einem quadratischen Fehlerziel zu versuchen. Es sollte stabil sein und zumindest konvergieren.

Ich verstehe, dass ein Teil des Entwurfs hinter diesen Paarungen darin besteht, dass die Formel für - wobei der Wert der Zielfunktion ist - für die Rückausbreitung einfach ist. Es sollte jedoch weiterhin möglich sein, diese Ableitung unter Verwendung anderer Paarungen zu finden. Es gibt auch viele andere Aktivierungsfunktionen, die in Ausgabeschichten nicht häufig zu sehen sind, aber möglicherweise möglich sind, z. B. und wo nicht klar ist, welche Zielfunktion angewendet werden könnte. $\frac{\delta E}{\delta z}$ $E$ tanh

Gibt es Situationen beim Entwerfen der Architektur eines neuronalen Netzwerks, in denen Sie "nicht standardmäßige" Paarungen von Ausgangsaktivierung und Zielfunktionen verwenden würden oder sollten?

neural-network gradient-descent Neil Slater
quelle

Wie flexibel ist die Verbindung zwischen Zielfunktion und Aktivierungsfunktion der Ausgangsschicht?

Antworten: