Warum wird sqrt (6) verwendet, um epsilon für die zufällige Initialisierung neuronaler Netze zu berechnen?

In den Vorlesungsunterlagen der 5. Woche für Andrew Ngs Coursera Machine Learning Class wird die folgende Formel zur Berechnung des Werts von der zum Initialisieren von mit zufälligen Werten verwendet wird: $\epsilon$ $\Theta$

In der Übung werden weitere Erläuterungen gegeben:

Eine effektive Strategie für die Auswahl von besteht darin, sie auf der Anzahl der Einheiten im Netzwerk zu basieren. Eine gute Wahl für ist , wobei und ist die Anzahl der Einheiten in den Schichten neben . $\epsilon_{init}$ $\epsilon_{init}$ $\epsilon_{init} = \frac{\sqrt{6}}{\sqrt{L_{in} - L_{out}}}$ $L_{in} = s_l$ $L_{out} = s_{l+1}$ $\Theta^{(l)}$

Warum wird hier die Konstante verwendet? Warum nicht , oder ? $\sqrt 6$ $\sqrt 5$ $\sqrt 7$ $\sqrt {6.1}$

machine-learning neural-networks random-generation Tom Hale
quelle

Antworten:

Ich glaube, dies ist eine Xavier- normalisierte Initialisierung (implementiert in mehreren Deep-Learning-Frameworks, z. B. Keras, Cafe, ...), um die Schwierigkeit des Trainings von Deep-Feedforward-Neuronalen Netzen von Xavier Glorot & Yoshua Bengio zu verstehen.

Siehe Gleichungen 12, 15 und 16 im verknüpften Artikel: Sie zielen darauf ab, Gleichung 12 zu erfüllen:

Var [W_{i}] = \frac{2}{n_{i} + n_{i + 1}}

$\text{Var}[W_i] = \frac{2}{n_i + n_{i+1}}$

und die Varianz eines einheitlichen RV in ist (Mittelwert ist Null, pdf = also Varianz $[-\epsilon,\epsilon]$ $\epsilon^2/3$ $1/(2\epsilon)$ $=\int_{-\epsilon}^{\epsilon}x^2 \frac{1}{2\epsilon}dx$

seanv507
quelle

Hmm, warum also verwenden

\sqrt{6}

$\sqrt 6$

2

$2$

Stecken Sie epsilon in die Formel für die Varianz der einheitlichen Zufallsvariablen in +/- x und was erhalten Sie?

Seanv507

[- ϵ, ϵ]

$[-\epsilon, \epsilon]$

x^{2} / 3

$x^2 / 3$

Erklärung für die Varianz des einheitlichen Wohnmobils hinzugefügt ...

Seanv507