Ist die Kreuzentropiekostenfunktion für ein neuronales Netzwerk konvex?

9

Mein Lehrer hat bewiesen, dass das 2. Derivat der Kreuzentropie immer positiv ist, so dass die Kostenfunktion neuronaler Netze mit Kreuzentropie konvex ist. Ist das wahr? Ich bin ziemlich verwirrt darüber, weil ich immer gelernt habe, dass die Kostenfunktion von ANN nicht konvex ist. Kann jemand das bestätigen? Vielen Dank! http://z0rch.com/2014/06/05/cross-entropy-cost-function

xuancanh
quelle
5
Link ist kaputt?
Ebbe-Earl-Co

Antworten:

7

Die Kreuzentropie einer Exponentialfamilie ist immer konvex. Für ein mehrschichtiges neuronales Netzwerk mit Eingängen , Gewichten und Ausgang und VerlustfunktionxwyL.

y2L.

ist konvex. Jedoch,

w2L.

wird für die Parameter der mittleren Schicht aus den von iamonaboat beschriebenen Gründen nicht konvex sein.

Neil G.
quelle
5

Was @ngiann gesagt hat, und informell, wenn Sie die Neuronen in der verborgenen Schicht permutieren und die gleiche Permutation für die Gewichte der benachbarten Schichten durchführen, ändert sich der Verlust nicht.

Wenn es also globale Minima ungleich Null als Funktion von Gewichten gibt, kann dies nicht eindeutig sein, da die Permutation von Gewichten ein anderes globales Minimum ergibt. Daher ist die Funktion nicht konvex.

Die Matrix aller zweiten partiellen Ableitungen (der Hessische) ist weder positiv semidefinit noch negativ semidefinit. Da die zweite Ableitung eine Matrix ist, ist es möglich, dass es weder die eine noch die andere ist.

Ich bin auf einem Boot
quelle
Wenn Sie eher pedantisch als informell sein möchten, erfordert die übliche Definition der Funktionskonvexität kein eindeutiges globales Minimum, sodass die Nicht-Eindeutigkeit der Minima keine Nicht-Konvexität impliziert. Das Permutieren der Gewichte auf diese Weise ändert jedoch auch nicht die tatsächliche Ausgabe Ihres Netzwerks. Selbst ohne Konvexität können Sie also die Eigenschaft haben, dass Ihre Trainingsfunktion jedes Mal zur gleichen ~ Funktion konvergiert. Ich wette, es gibt eine Möglichkeit, diese Symmetrie zu brechen, um die Gewichte zu ordnen, ohne andere Eigenschaften der Verlustfunktion zu beeinträchtigen.
Andrew Wagner
3

Sie vermuten zu Recht, dass das ANN-Optimierungsproblem des Kreuzentropieproblems nicht konvex ist. Hinweis: Es handelt sich um ein neuronales Netzwerk mit nichtlinearer Aktivierungsfunktion auf der verborgenen Ebene. Wenn Sie keine nichtlineare Aktivierungsfunktion verwenden, implementiert Ihr ANN eine lineare Funktion und das Problem wird konvex.

Der Grund, warum die Optimierung der Kreuzentropie eines ANN nicht konvex ist, liegt in der zugrunde liegenden Parametrisierung des ANN. Wenn Sie ein lineares neuronales Netzwerk verwenden, können Sie es konvex machen (es sieht im Wesentlichen wie eine logistische Regression aus, die ein konvexes Problem darstellt).

ngiann
quelle