Warum hat die Chargennorm eine lernbare Skalierung und Verschiebung?

Soweit ich weiß, normalisiert die Batch-Norm alle Eingabemerkmale einer Schicht auf eine Einheitsnormalverteilung . Der Mittelwert und die Varianz werden geschätzt, indem ihre Werte für die aktuelle Mini-Charge gemessen werden. $\mathcal{N}(\mu=0,\sigma=1)$ $\mu, \sigma^2$

Nach der Normalisierung werden die Eingänge um Skalarwerte skaliert und verschoben:

{\hat{x}}_{i}^{'} = γ {\hat{x}}_{i} + β

$\hat{x}_i' = \gamma \hat{x}_i + \beta$

(Korrigieren Sie mich, wenn ich hier falsch liege - hier werde ich etwas unsicher.)

und sind Skalarwerte, und für jede chargennormierte Schicht gibt es jeweils ein Paar. Sie werden zusammen mit den Gewichten mit Backprop und SGD gelernt. $\gamma$ $\beta$

Meine Frage ist, sind diese Parameter nicht redundant, da die Eingaben durch die Gewichte in der Ebene selbst in irgendeiner Weise skaliert und verschoben werden können. Mit anderen Worten, wenn

y = W {\hat{x}}^{'} + b

$y = W \hat{x}' + b$

und

{\hat{x}}^{'} = γ \hat{x} + β

$\hat{x}' = \gamma \hat{x} + \beta$

dann

y = W^{'} \hat{x} + b^{'}

$y = W' \hat{x} + b'$

$W' = W\gamma$ $b'=W\beta + b$

Was bringt es also, sie aus dem Netzwerk hinzuzufügen, um bereits die Größenordnung und Verschiebung zu lernen? Oder verstehe ich Dinge total falsch?

batch-normalization Timmmm
quelle

Antworten:

Das Deep Learning Book, Abschnitt 8.7.1, enthält eine perfekte Antwort :

Das Normalisieren des Mittelwerts und der Standardabweichung einer Einheit kann die Ausdruckskraft des neuronalen Netzwerks, das diese Einheit enthält, verringern. Um die Ausdruckskraft des Netzwerks aufrechtzuerhalten, ist es üblich, die Charge der Aktivierungen versteckter Einheiten H durch γH + β zu ersetzen und nicht nur das normalisierte H. Die Variablen γ und β sind gelernte Parameter, die es der neuen Variablen ermöglichen, einen beliebigen Mittelwert und zu haben Standardabweichung. Auf den ersten Blick mag dies nutzlos erscheinen - warum haben wir den Mittelwert auf 0 gesetzt und dann einen Parameter eingeführt, mit dem er auf einen beliebigen Wert β zurückgesetzt werden kann?

Die Antwort ist, dass die neue Parametrisierung dieselbe Funktionsfamilie der Eingabe wie die alte Parametrisierung darstellen kann, die neue Parametrisierung jedoch eine andere Lerndynamik aufweist. Bei der alten Parametrisierung wurde der Mittelwert von H durch eine komplizierte Wechselwirkung zwischen den Parametern in den Schichten unter H bestimmt. Bei der neuen Parametrisierung wird der Mittelwert von γH + β ausschließlich durch β bestimmt. Die neue Parametrisierung ist bei Gradientenabstieg viel einfacher zu erlernen.

Timmmm
quelle