Ist ein gieriges schichtweises Training tiefer Netzwerke für ein erfolgreiches Training erforderlich oder reicht ein stochastischer Gradientenabstieg aus?

8

Ist es möglich, Ergebnisse auf dem neuesten Stand der Technik zu erzielen, indem nur die Rückausbreitung verwendet wird (ohne Vorschulung )?

Oder ist es so, dass alle rekordverdächtigen Ansätze irgendeine Form von Vorschulung verwenden?

Ist die Rückausbreitung allein gut genug?


quelle

Antworten:

8

Eine Vorschulung ist nicht mehr erforderlich . Ziel war es, eine gute Initialisierung für die Netzwerkgewichte zu finden, um die Konvergenz bei Verwendung einer hohen Anzahl von Schichten zu erleichtern. Heutzutage haben wir ReLU , Dropout und Batch-Normalisierung , die alle dazu beitragen, das Problem des Trainings tiefer neuronaler Netze zu lösen. Zitat aus dem oben verlinkten reddit-Beitrag (vom Gewinner der Galaxy Zoo Kaggle-Herausforderung):

Ich würde sagen, dass die „Pre-Training-Ära“, die um 2006 begann, in den frühen 10er Jahren endete, als die Leute anfingen, gleichgerichtete Lineareinheiten (ReLUs) zu verwenden, und später abbrachen und entdeckten, dass das Pre-Training dafür nicht mehr vorteilhaft war Art der Netzwerke.

Aus dem ReLU-Papier (oben verlinkt):

Tiefengleichrichternetzwerke können ihre beste Leistung erzielen, ohne dass eine unbeaufsichtigte Vorschulung erforderlich ist

Dies ist jedoch nicht mehr erforderlich , kann jedoch in einigen Fällen, in denen zu viele unbeaufsichtigte (unbeschriftete) Proben vorhanden sind, die Leistung verbessern, wie in diesem Dokument gezeigt .

rcpinto
quelle
Dies ist eine gute Antwort, aber ich denke, es wäre noch besser, wenn Sie eine akademische Referenz finden könnten, anstatt einen Reddit-Thread.
Sycorax sagt Reinstate Monica
Sind die 3 oben nicht genug? Es ist sogar in der Zusammenfassung des ersten geschrieben.
rcpinto
Die Überarbeitung ist genau die Art von Unterstützung für die Behauptung, dass "Vorschulung nicht mehr notwendig ist", auf die ich gehofft hatte. Vielen Dank für Ihren Beitrag zu unserer Website.
Sycorax sagt Reinstate Monica
1
Hier ist eine verwandte Frage: Macht das Pre-Training dasselbe wie der Abbruch (in gewissem Sinne)?
Diese Antwort ist sehr falsch oder bestenfalls irreführend; BN, Dropout usw. spielen eine Rolle, die weitgehend orthogonal zum Vortraining ist, wobei letzteres das Lernen übertragbarer Merkmale ermöglicht . Beispiel: Entrauschen, Dimensionalitätsreduzierung, Rekonstruktion von Zeitreihen Autoencoder-Encoder für fehlende Daten, die am Eingang vor einem Klassifikator-Neuronalen Netz platziert sind; Der Klassifikator lernt Unterscheidungsmerkmale , die sich stark von denen des Autoencoders unterscheiden.
OverLordGoldDragon