In einem kürzlich veröffentlichten Blog-Beitrag von Rong Ge hieß es:
Es wird angenommen, dass für viele Probleme, einschließlich des Lernens tiefer Netze, fast alle lokalen Minima einen sehr ähnlichen Funktionswert aufweisen wie das globale Optimum, und daher ist es gut genug, ein lokales Minimum zu finden.
Woher kommt dieser Glaube?
Antworten:
Ein kürzlich veröffentlichter Aufsatz The Loss Surfaces of Multilayer Networks bietet einige mögliche Erklärungen dafür. Aus ihrem Abstract (fett ist meins):
Viele der einflussreichen Personen im Bereich Deep Learning (Yann LeCunn und Yoshua Bengio, um nur einige zu nennen) und einige Forscher aus mathematischer Sicht (Rong Ge und andere Mitarbeiter von Sanjeev Arora) haben diese Ideen diskutiert und untersucht.
In dem oben zitierten Artikel wird auf 3 verwiesen, die ein Banding- / Konzentrationsphänomen der lokalen Minima-Werte zeigt, da die Netze mehr versteckte Einheiten aufweisen. Die Streifenbildung / Konzentration stellt einige empirische Beweise dafür dar, dass für tiefere oder größere Modelle ein lokales Minimum "gut genug" ist, da ihre Verlustwerte in etwa ähnlich sind. Und vor allem haben sie einen Verlust, der näher am globalen Minimum liegt, wenn das Modell komplexer wird (in diesem Fall breiter, aber in der Praxis tiefer).
Darüber hinaus verwenden sie ein Spin-Glass-Modell, von dem sie sogar behaupten, es sei nur ein Modell und zeige nicht unbedingt das wahre Bild, um zu zeigen, dass das Erreichen des globalen Minimierers von einer lokalen Minima aus exponentiell lange dauern kann:
Die Rong Ge-Forschung konzentriert sich auf das Durchbrechen von Sattelpunkten. Yoshua Bengio und seine Mitarbeiter haben eine ziemlich kühne Sattelpunkt-Hypothese aufgestellt:
Quelle hier: Identifizieren und Angreifen des Sattelpunktproblems bei der hochdimensionalen nichtkonvexen Optimierung.
In gewissem Maße stimmen die beiden oben genannten Ansätze nicht genau überein (die Sattelpunkthypothese könnte in Frage stellen, was wirklich ein lokales Minimum und was lediglich ein schlecht konditionierter Sattelpunkt mit einer sehr langen Plateauregion ist). Die Idee hinter der Sattelpunkthypothese ist, dass es möglich ist, Optimierungsmethoden zu entwerfen, um Sattelpunkte zu durchbrechen, beispielsweise das sattelfreie Newton aus dem Bengio-Artikel, um die Konvergenz zu beschleunigen und möglicherweise sogar das globale Optimum zu erreichen. Der erste Artikel mit mehrschichtiger Verlustfläche befasst sich nicht wirklich mit dem Erreichen des globalen Optimums und glaubt tatsächlich, dass er einige schlechte Überanpassungseigenschaften aufweist. Interessanterweise verwenden beide Artikel Ideen aus der statistischen Physik und Spin-Glass-Modelle.
Sie sind jedoch insofern verwandt, als beide Artikel der Ansicht sind, dass man die Optimierungsherausforderung von Sattelpunkten bewältigen muss, um den globalen Minimierer zu erreichen. Der erste Artikel glaubt nur, dass lokale Minima gut genug sind.
Man kann sich fragen, ob Impulsmethoden und andere neue Optimierungsalgorithmen, die einige Krümmungseigenschaften 2. Ordnung abschätzen können, den Sattelpunkten entgehen können. Eine berühmte Animation von Alec Radford hier .
Zur Beantwortung Ihrer Frage: "Woher kommt diese Überzeugung?" Ich persönlich denke, dass es möglich ist, verschiedene zufällige Samen zu verwenden, um verschiedene Gewichte zu lernen, aber die entsprechenden Netze haben eine ähnliche quantitative Leistung. Wenn Sie beispielsweise zwei verschiedene zufällige Startwerte für die Glorot-Gewichtsinitialisierung festlegen, werden Sie wahrscheinlich unterschiedliche Gewichte lernen. Wenn Sie jedoch mit ähnlichen Optimierungsmethoden trainieren, weisen die Netze eine ähnliche Leistung auf. Eine verbreitete Folklorehypothese ist, dass die Optimierungslandschaft der eines Eierkartons ähnelt, ein weiterer guter Blogbeitrag dazu hier: Keine lokalen Minima mehr? mit der Eierkarton-Analogie.
Edit: Ich wollte nur klarstellen, dass die Eierkarton-Analogie nicht wahr ist, da sonst keine Dynamik oder andere fortschrittlichere Optimierungstechniken erforderlich wären. Es ist jedoch bekannt, dass SGD nicht so gut arbeitet wie SGD + Momentum oder modernere Optimierungsalgorithmen, was möglicherweise auf das Vorhandensein von Sattelpunkten zurückzuführen ist.
quelle