Eine Vorschulung ist nicht mehr erforderlich . Ziel war es, eine gute Initialisierung für die Netzwerkgewichte zu finden, um die Konvergenz bei Verwendung einer hohen Anzahl von Schichten zu erleichtern. Heutzutage haben wir ReLU , Dropout und Batch-Normalisierung , die alle dazu beitragen, das Problem des Trainings tiefer neuronaler Netze zu lösen. Zitat aus dem oben verlinkten reddit-Beitrag (vom Gewinner der Galaxy Zoo Kaggle-Herausforderung):
Ich würde sagen, dass die „Pre-Training-Ära“, die um 2006 begann, in den frühen 10er Jahren endete, als die Leute anfingen, gleichgerichtete Lineareinheiten (ReLUs) zu verwenden, und später abbrachen und entdeckten, dass das Pre-Training dafür nicht mehr vorteilhaft war Art der Netzwerke.
Aus dem ReLU-Papier (oben verlinkt):
Tiefengleichrichternetzwerke können ihre beste Leistung erzielen, ohne dass eine unbeaufsichtigte Vorschulung erforderlich ist
Dies ist jedoch nicht mehr erforderlich , kann jedoch in einigen Fällen, in denen zu viele unbeaufsichtigte (unbeschriftete) Proben vorhanden sind, die Leistung verbessern, wie in diesem Dokument gezeigt .