In letzter Zeit gibt es ein Papier zur Ebenennormalisierung . Es gibt auch eine Implementierung auf Keras.
Aber ich erinnere mich, dass es Artikel mit dem Titel Recurrent Batch Normalization (Cooijmans, 2016) und Batch Normalized Recurrent Neural Networks (Laurent, 2015) gibt. Was ist der Unterschied zwischen diesen drei?
Es gibt diesen Abschnitt über verwandte Arbeiten, den ich nicht verstehe:
Die Batch-Normalisierung wurde zuvor auf wiederkehrende neuronale Netze ausgedehnt [Laurent et al., 2015, Amodei et al., 2015, Cooijmans et al., 2016]. Die vorherige Arbeit [Cooijmans et al., 2016] legt nahe, dass die beste Leistung der wiederkehrenden Chargennormalisierung erzielt wird, indem unabhängige Normalisierungsstatistiken für jeden Zeitschritt geführt werden. Die Autoren zeigen, dass die Initialisierung des Verstärkungsparameters in der wiederkehrenden Batch-Normalisierungsschicht auf 0,1 einen signifikanten Unterschied in der endgültigen Leistung des Modells darstellt. Unsere Arbeit befasst sich auch mit der Gewichtsnormalisierung [Salimans und Kingma, 2016]. Bei der Gewichtsnormalisierung wird anstelle der Varianz die L2-Norm der eingehenden Gewichte verwendet, um die summierten Eingaben in ein Neuron zu normalisieren. Das Anwenden von Gewichtsnormalisierung oder Chargennormalisierung unter Verwendung von erwarteten Statistiken entspricht einer anderen Parametrisierung des ursprünglichen neuronalen Vorwärtskopplungsnetzwerks. Die Umparametrierung im ReLU-Netzwerk wurde in der Pathnormalized SGD untersucht [Neyshabur et al., 2015]. Unsere vorgeschlagene Schichtnormalisierungsmethode ist jedoch keine Neuparametrisierung des ursprünglichen neuronalen Netzwerks. Das schichtnormalisierte Modell hat daher andere Invarianzeigenschaften als die anderen Methoden , die wir im folgenden Abschnitt untersuchen werden