Warum sollten Sie in neuronalen Netzen Gradientenmethoden anstelle anderer Metaheuristiken verwenden?

20

Warum werden beim Training tiefer und flacher neuronaler Netze im Gegensatz zu anderen Metaheuristiken häufig Gradientenmethoden (z. B. Gradientenabstieg, Nesterov, Newton-Raphson) verwendet?

Mit Metaheuristik meine ich Methoden wie simuliertes Tempern, Optimierung von Ameisenkolonien usw., die entwickelt wurden, um zu vermeiden, dass sie in einem lokalen Minimum hängen bleiben.

Lior
quelle

Antworten:

13

Erweiterung der Antwort von @Dikran Marsupial ....

Anna Choromanska und ihre Kollegen von Yan LeCunns Gruppe an der New York University sprechen dies in ihrem 2014 erschienenen AISTATS-Papier "The Loss Surface of Multilayer Nets" an . Unter Verwendung der Zufallsmatrixtheorie argumentieren sie zusammen mit einigen Experimenten, dass:

  • Bei großen Netzwerken sind die meisten lokalen Minima gleich und ergeben eine ähnliche Leistung bei einem Testsatz.

  • Die Wahrscheinlichkeit, ein "schlechtes" (hohes) lokales Minimum zu finden, ist für kleine Netzwerke ungleich Null und nimmt mit der Netzwerkgröße schnell ab.

  • Das Bemühen, das globale Minimum auf dem Trainingsset zu finden (im Gegensatz zu einem der vielen guten lokalen), ist in der Praxis nicht sinnvoll und kann zu einer Überanpassung führen.

[Aus Seite 2 des Papiers]

Aus dieser Sicht gibt es keinen guten Grund, Schwergewichtsansätze zu verwenden, um das globale Minimum zu finden. In dieser Zeit sollten Sie besser neue Netzwerktopologien, Funktionen, Datensätze usw. ausprobieren.

Trotzdem haben viele Leute darüber nachgedacht, SGD zu vergrößern oder zu ersetzen. Für relativ kleine Netzwerke (nach heutigen Maßstäben) scheinen diese verbesserten Metahuristiken etwas zu bewirken, was Mavrovouniotis und Yang (2016) zeigen, dass Ameisenkolonieoptimierung + Backprop unverändertes Backprop auf mehreren Benchmark-Datensätzen übertrifft (wenn auch nicht um ein Vielfaches). Rere el al. (2015) verwenden simuliertes Tempern, um ein CNN zu trainieren, und stellen fest, dass es am Validierungssatz zunächst eine bessere Leistung erbringt. Nach 10 Epochen bleibt jedoch nur ein sehr kleiner (und nicht auf Signifikanz getesteter) Leistungsunterschied übrig. Der Vorteil der schnelleren Konvergenz pro Epoche wird auch durch eine dramatisch größere Rechenzeit pro Epoche ausgeglichen, sodass dies kein offensichtlicher Gewinn für das simulierte Tempern ist.

Es ist möglich, dass diese Heuristiken das Netzwerk besser initialisieren, und sobald sie auf den richtigen Weg weisen, kann jeder Optimierer dies tun. Sutskever et al. (2013) aus der Gruppe von Geoff Hinton argumentieren in ihrem ICML-Papier von 2013 so etwas .

Matt Krause
quelle
17

Lokale Minima sind bei neuronalen Netzen nicht so ein Problem, wie oft vermutet wird. Einige der lokalen Minima sind auf die Symmetrie des Netzwerks zurückzuführen (dh Sie können die verborgenen Neuronen permutieren und die Funktion verlassendes Netzwerks unverändert. Alles was notwendig ist, ist ein gutes lokales Minimum zu finden, anstatt ein globales Minimum. Da die aggressive Optimierung eines sehr flexiblen Modells wie eines neuronalen Netzwerks wahrscheinlich ein Rezept für eine Überanpassung der Daten ist, ist es wahrscheinlich, dass die Verwendung von beispielsweise simuliertem Tempern zum Auffinden der globalen Minima des Trainingskriteriums ein neuronales Netzwerk mit schlechteren Werten ergibt Verallgemeinerungsleistung als eine, die durch Gradientenabstieg trainiert wird und in einem lokalen Minimum endet. Wenn diese heuristischen Optimierungsmethoden verwendet werden, würde ich empfehlen, einen Regularisierungsbegriff einzufügen, um die Komplexität des Modells zu begrenzen.

... oder alternativ z. B. eine Kernel-Methode oder ein radiales Basisfunktionsmodell verwenden, was wahrscheinlich weniger problematisch ist.

Dikran Beuteltier
quelle