Gestapelte Autoencoder und die mehrschichtigen neuronalen Netze sind unterschiedlich. In der Praxis teilen sich die beiden Netzwerke Gewichte und möglicherweise auch Speicherpuffer. In Ihrer Implementierung verschränken sich die beiden Netzwerke.
In der Regel werden Autoencoder unbeaufsichtigt, gierig und schichtweise trainiert. (Keine Etiketten, beginnen Sie mit dem Training nur mit der ersten Schicht des Netzwerks und fügen Sie dann nach und nach neue Schichten hinzu.) Die Gewichte können mit einer Vielzahl von Techniken gelernt werden, die vom "Batch" -Gradientenabstieg reichen (bitte tun Sie das nicht). zu Mini-Batch-Stochastic-Gradient-Descent (SGD), zu Quasi-Newton-Methoden wie L-BFGS.
Die Idee ist, dass die Gewichte, die auf unbeaufsichtigte Weise gelernt werden, um den Rekonstruktionsfehler für die Repräsentationslernaufgabe zu minimieren, einen guten Ausgangspunkt bieten, um ein Netzwerk für eine überwachte Unterscheidungsaufgabe wie Klassifizierung oder Ähnlichkeit zu initialisieren. Das heißt, das Netzwerk lernt etwas über die zugrunde liegende Verteilung, indem es sich die unbeschrifteten Daten ansieht, wodurch es zwischen den beschrifteten Daten unterscheiden kann. Die Gewichte müssen für diese neue Aufgabe jedoch noch "feinabgestimmt" werden. Fügen Sie also eine logistische Regressionsebene oben im Netzwerk hinzu und führen Sie dann ein überwachtes Lernen mit einem beschrifteten Datensatz durch. Der Feineinstellungsschritt führt einen Gradientenabstieg durch und passt die Gewichte für alle Layer im Netzwerk gleichzeitig an.
Die Vorteile dieser Art des Trainings von neuronalen Netzen sind:
- Durch unbeaufsichtigtes Training können Sie dem Netzwerk mehr Daten anzeigen, da es viel einfacher ist, große unbeaufsichtigte Datensätze abzurufen, als beschriftete.
- Sie können das vorab trainierte Netzwerk als "Ausgangspunkt" für das Training neuer Klassifikatoren verwenden, damit Sie nicht jedes Mal von vorne beginnen müssen.
Weitere Informationen finden Sie unter Gestapelte Entrauschungs-Autoencoder: Lernen Sie nützliche Darstellungen in einem tiefen Netzwerk mit einem lokalen Entrauschungskriterium .