Ich wusste, dass das Residual Network (ResNet) die normale Initialisierung populär machte. In ResNet wird die normale He-Initialisierung verwendet , während die erste Ebene die einheitliche He-Initialisierung verwendet.
Ich habe das ResNet-Papier und das "Delving Deep into Rectifiers" -Papier (He-Initialisierungspapier) durchgesehen, aber ich habe keine Erwähnung für normales Init vs. uniformes Init gefunden.
Ebenfalls:
Durch die Batch-Normalisierung können wir viel höhere Lernraten verwenden und bei der Initialisierung weniger vorsichtig sein.
In der Zusammenfassung des Stapelnormalisierungspapiers heißt es, dass die Stapelnormalisierung es uns ermöglicht, weniger vorsichtig mit der Initialisierung umzugehen.
ResNet selbst achtet immer noch darauf, wann normales Init oder uniformes Init verwendet werden soll (anstatt nur mit dem uniformem Init zu arbeiten).
Damit:
- Wann wird die normalverteilte Initialisierung (He oder Glorot) über die einheitliche Initialisierung verwendet?
- Was sind normalverteilte Initialisierungseffekte bei der Batch-Normalisierung?
Notizen beiseite:
- Es reimt sich darauf, normales Init mit Batch-Normalisierung zu verwenden, aber ich habe kein Papier gefunden, das diese Tatsache stützt.
- Ich wusste, dass ResNet He init anstelle von Glorot init verwendet, da He init in einem tiefen Netzwerk besser funktioniert.
- Ich habe Glorot Init gegen He Init verstanden .
- Meine Frage ist zu Normal vs Uniform init.
Bitte lesen Sie die Hyper-Parameter in Aktion! Teil II - Gewichtsinitialisierer
quelle