Die Kostenfunktion des neuronalen Netzes ist , und es wird behauptet, dass es nicht konvex ist . Ich verstehe nicht ganz, warum das so ist, da es meiner Ansicht nach der Kostenfunktion der logistischen Regression ziemlich ähnlich ist, oder?
Wenn es nicht konvex ist, ist also die Ableitung Ordnung , richtig?
AKTUALISIEREN
Dank der folgenden Antworten und des Kommentars von @ gung habe ich verstanden, dass es konvex ist, wenn es überhaupt keine versteckten Ebenen gibt, genau wie bei der logistischen Regression. Wenn es jedoch verborgene Ebenen gibt, könnten wir durch Permutieren der Knoten in den verborgenen Ebenen sowie der Gewichte in nachfolgenden Verbindungen mehrere Lösungen der Gewichte erhalten, die zum gleichen Verlust führen.
Nun mehr Fragen,
1) Es gibt mehrere lokale Minima, von denen einige den gleichen Wert haben sollten, da sie einigen Knoten- und Gewichtungspermutationen entsprechen, oder?
2) Wenn die Knoten und Gewichte überhaupt nicht permutiert werden, dann ist es konvex, oder? Und die Minima werden die globalen Minima sein. Wenn ja, ist die Antwort zu 1), dass alle diese lokalen Minima den gleichen Wert haben werden, richtig?
quelle
Antworten:
Die Kostenfunktion eines neuronalen Netzes ist im Allgemeinen weder konvex noch konkav. Dies bedeutet, dass die Matrix aller zweiten Teilableitungen (das Hessische) weder positiv noch negativ semidefinit ist. Da die zweite Ableitung eine Matrix ist, ist es möglich, dass es weder die eine noch die andere ist.
Um dies analog zu Funktionen mit einer Variablen zu machen, könnte man sagen, dass die Kostenfunktion weder wie der Graph von noch wie der Graph von - x 2 geformt ist . Ein weiteres Beispiel eines nicht-konvexen, nicht-konkave Funktion sin ( x ) auf R . Einer der auffälligsten Unterschiede ist, dass ± x 2 nur ein Extremum hat, während die Sünde unendlich viele Maxima und Minima hat.x2 - x2 Sünde( x ) R ± x2 Sünde
In welcher Beziehung steht dies zu unserem neuronalen Netzwerk? Eine Kostenfunktion hat auch eine Reihe von lokalen Maxima und Minima, wie Sie zum Beispiel in diesem Bild sehen können.J( W, B )
Die Tatsache, dass mehrere Minima hat, kann auch auf nette Weise interpretiert werden. In jeder Schicht verwenden Sie mehrere Knoten, denen unterschiedliche Parameter zugewiesen sind, um die Kostenfunktion klein zu halten. Mit Ausnahme der Parameterwerte sind diese Knoten identisch. Sie können also die Parameter des ersten Knotens in einer Ebene mit denen des zweiten Knotens in derselben Ebene austauschen und diese Änderung in den nachfolgenden Ebenen berücksichtigen. Sie würden einen anderen Parametersatz erhalten, aber der Wert der Kostenfunktion lässt sich nicht unterscheiden (im Grunde haben Sie nur einen Knoten an einen anderen Ort verschoben, aber alle Ein- / Ausgänge gleich belassen).J
quelle
Wenn Sie die Neuronen in der verborgenen Ebene permutieren und die Gewichte der benachbarten Ebenen auf die gleiche Weise permutieren, ändert sich der Verlust nicht. Wenn es also ein globales Minimum ungleich Null als Funktion der Gewichte gibt, kann es nicht eindeutig sein, da die Permutation der Gewichte ein anderes Minimum ergibt. Daher ist die Funktion nicht konvex.
quelle
Ob die Zielfunktion konvex ist oder nicht, hängt von den Details des Netzwerks ab. In dem Fall, dass mehrere lokale Minima existieren, fragen Sie, ob sie alle gleichwertig sind. Im Allgemeinen lautet die Antwort "Nein", aber die Chance, ein lokales Minimum mit guter Generalisierungsleistung zu finden, scheint mit der Netzwerkgröße zuzunehmen.
Dieses Papier ist von Interesse:
Aus der Einleitung:
Sie zitieren auch einige Artikel, in denen beschrieben wird, wie Sattelpunkte beim Training großer Netzwerke eine größere Rolle spielen als lokale Minima.
quelle
Einige Antworten für Ihre Updates:
Ja, es gibt im Allgemeinen mehrere lokale Minima. (Wenn es nur eines gäbe, würde es als globales Minimum bezeichnet.) Die lokalen Minima müssen nicht unbedingt denselben Wert haben. Im Allgemeinen gibt es möglicherweise keine lokalen Minima, die denselben Wert haben.
Nein, es ist nicht konvex, es sei denn, es ist ein einschichtiges Netzwerk. Im allgemeinen Mehrschichtfall können die Parameter der späteren Schichten (die Gewichtungs- und Aktivierungsparameter) hochrekursive Funktionen der Parameter in früheren Schichten sein. Im Allgemeinen führt die Multiplikation von Entscheidungsvariablen, die durch eine rekursive Struktur eingeführt werden, dazu, dass die Konvexität zerstört wird. Ein weiteres gutes Beispiel hierfür sind MA (q) -Modelle in der Zeitreihenanalyse.
quelle
Sie haben ein globales Minimum, wenn das Problem konvex oder quasikonvex ist.
Über konvexe "Bausteine" beim Aufbau neuronaler Netze (Informatikversion)
Ich denke, es gibt mehrere von ihnen, die erwähnt werden können:
max (0, x) - konvex und ansteigend
log-sum-exp - konvex und steigend in jedem Parameter
y = Axe ist affin und in (A) so konvex, dass sie zunimmt oder abnimmt. y = Axe ist affin und in (x) so konvex, dass sie zunimmt oder abnimmt.
Leider ist es in (A, x) nicht konvex, weil es wie eine unbestimmte quadratische Form aussieht.
Übliche mathematische diskrete Faltung (mit "üblich" meine ich definiert mit sich wiederholendem Signal) Y = h * X Sieht so aus, als ob es eine affine Funktion von h oder von Variable X ist. Also ist es eine konvexe in Variable h oder in Variable X. Über beide Variablen - Ich glaube nicht, denn wenn h und X Skalare sind, wird die Faltung auf eine unbestimmte quadratische Form reduziert.
max (f, g) - wenn f und g konvex sind, ist auch max (f, g) konvex.
Wenn Sie eine Funktion durch eine andere ersetzen und Kompositionen erstellen, bleiben Sie für y = h (g (x), q (x)) im konvexen Raum, aber h sollte konvex sein und in jedem Argument zunehmen (nicht abnehmen). ...
Warum neuronale Netze in nicht konvexen:
Ich denke, dass die Faltung Y = h * X in h nicht unbedingt zunimmt. Wenn Sie also keine zusätzlichen Annahmen über den Kernel treffen, verlassen Sie die konvexe Optimierung sofort, nachdem Sie die Faltung angewendet haben. Es ist also nicht alles in Ordnung mit Komposition .
Auch Faltung und Matrixmultiplikation sind nicht konvex, wenn die oben erwähnten Paarparameter berücksichtigt werden . Es gibt also evean ein Problem mit der Matrixmultiplikation: Es ist eine nicht konvexe Operation in Parametern (A, x)
y = Ax kann in (A, x) quasikonvex sein, aber es sollten auch zusätzliche Annahmen berücksichtigt werden.
Bitte lassen Sie mich wissen, wenn Sie anderer Meinung sind oder zusätzliche Überlegungen anstellen. Die Frage ist auch für mich sehr interessant.
ps max-pooling - das ist downsamping mit der auswahl von max sieht aus wie eine änderung von elementweisen max-operationen mit affiner vorkomposition (um benötigte blöcke zu ziehen) und es sieht für mich konvex aus.
Über andere Fragen
Nein, logistische Regression ist nicht konvex oder konkav, sondern logkonkav. Dies bedeutet, dass Sie nach dem Anwenden des Logarithmus eine Konkavfunktion für erklärende Variablen haben. Hier ist also der Trick mit der maximalen Log-Wahrscheinlichkeit groß.
Wenn es nicht nur ein globales Minimum gibt. Über die Beziehung zwischen den lokalen Mindestwerten kann nichts gesagt werden. Oder zumindest können Sie keine konvexe Optimierung und ihre Erweiterungen dafür verwenden, da dieser Bereich der Mathematik stark auf globaler Unterschätzung basiert.
Vielleicht haben Sie Verwirrung. Weil wirklich Leute, die solche Schemata erstellen, einfach "etwas" tun und "etwas" erhalten. Leider, weil wir keinen perfekten Mechanismus haben, um mit nicht konvexer Optimierung fertig zu werden (im Allgemeinen).
Neben neuronalen Netzen gibt es jedoch noch weitere einfache Dinge, die sich nicht wie nichtlineare kleinste Quadrate lösen lassen. Https://youtu.be/l1X4tOoIHYo?t=2992 (EE263, L8, 50:10)
quelle