Wie sollte der Bias initialisiert und reguliert werden?

12

Ich habe ein paar Artikel über die Kernel-Initialisierung gelesen und in vielen Artikeln wird erwähnt, dass sie die L2-Regularisierung des Kernels verwenden (oft mitλ=0.0001 ).

Tut irgendjemand etwas anderes, als die Verzerrung mit konstanter Null zu initialisieren und sie nicht zu regulieren?

Kernel-Initialisierungspapiere

Martin Thoma
quelle

Antworten:

14

Aus den Stanford CS231N Notes ( http://cs231n.github.io/neural-networks-2/ ):

Initialisierung der Vorurteile. Es ist möglich und üblich, die Vorspannungen auf Null zu initialisieren, da das Aufbrechen der Asymmetrie durch die kleinen Zufallszahlen in den Gewichten bereitgestellt wird. Bei ReLU-Nichtlinearitäten verwenden manche Leute gerne einen kleinen konstanten Wert wie 0,01 für alle Verzerrungen, da dies sicherstellt, dass alle ReLU-Einheiten zu Beginn feuern und daher einen gewissen Gradienten erhalten und ausbreiten. Es ist jedoch nicht klar, ob dies zu einer konsistenten Verbesserung führt (in der Tat scheinen einige Ergebnisse darauf hinzudeuten, dass dies eine schlechtere Leistung erbringt), und es ist üblicher, einfach eine 0-Vorspannungsinitialisierung zu verwenden.

In LSTMs ist es üblich, die Verzerrungen auf 1 zu initialisieren - siehe zum Beispiel http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf .

Lukas Biewald
quelle