Warum wird sqrt (6) verwendet, um epsilon für die zufällige Initialisierung neuronaler Netze zu berechnen?

8

In den Vorlesungsunterlagen der 5. Woche für Andrew Ngs Coursera Machine Learning Class wird die folgende Formel zur Berechnung des Werts von der zum Initialisieren von mit zufälligen Werten verwendet wird:ϵΘ

Forumla zur Berechnung von epsilon-init für die zufällige Initialisierung

In der Übung werden weitere Erläuterungen gegeben:

Eine effektive Strategie für die Auswahl von besteht darin, sie auf der Anzahl der Einheiten im Netzwerk zu basieren. Eine gute Wahl für ist , wobei und ist die Anzahl der Einheiten in den Schichten neben .ϵinitϵinitϵinit=6LinLoutLin=slLout=sl+1Θ(l)

Warum wird hier die Konstante verwendet? Warum nicht , oder ?6576.1

Tom Hale
quelle

Antworten:

4

Ich glaube, dies ist eine Xavier- normalisierte Initialisierung (implementiert in mehreren Deep-Learning-Frameworks, z. B. Keras, Cafe, ...), um die Schwierigkeit des Trainings von Deep-Feedforward-Neuronalen Netzen von Xavier Glorot & Yoshua Bengio zu verstehen.

Siehe Gleichungen 12, 15 und 16 im verknüpften Artikel: Sie zielen darauf ab, Gleichung 12 zu erfüllen:

Var[Wi]=2ni+ni+1

und die Varianz eines einheitlichen RV in ist (Mittelwert ist Null, pdf = also Varianz[ϵ,ϵ]ϵ2/31/(2ϵ)=ϵϵx212ϵdx

seanv507
quelle
Hmm, warum also verwenden62
Stecken Sie epsilon in die Formel für die Varianz der einheitlichen Zufallsvariablen in +/- x und was erhalten Sie?
Seanv507
[ϵ,ϵ]x2/3
1
Erklärung für die Varianz des einheitlichen Wohnmobils hinzugefügt ...
Seanv507