Nach meinem besten Wissen ist der jüngste Artikel von Google-Forschern das, wonach Sie suchen, am nächsten: Batch-Normalisierung: Beschleunigung des Deep Network-Trainings durch Reduzierung der internen Covariate-Verschiebung .
Chargennormalisierung
lyl= f( W.x + b )fW., bx
Die Chargennormalisierung (BN) bewirkt Folgendes:
- W.x + bx^x^W.x + b
- x^→ γx^+ β.
- y^l= f( γx^+ β)
Also standardisiert BN die Aktivierungsausgaben "roh" (lesen Sie: bevor wir die Nichtlinearität anwenden) auf den Mittelwert Null, Varianz 1, und dann wenden wir eine erlernte affine Transformation an und schließlich wenden wir die Nichtlinearität an. In gewissem Sinne können wir dies so interpretieren, dass das neuronale Netzwerk eine geeignete parametrisierte Eingangsverteilung für die Nichtlinearität lernen kann.
γ, β
Affine Transformationsmotivation
βγ
Zuerst standardisieren
γ, βTatsächlich lernten sie eine Transformation, bei der sie die Identitätstransformation als Referenz oder Basis für den Vergleich verwendeten. Die Microsoft-Co-Autoren waren der Ansicht, dass diese Referenz oder Baseline dazu beitrug, das Problem vorzubereiten. Ich glaube nicht, dass es zu weit hergeholt ist, sich zu fragen, ob hier bei BN und dem ersten Standardisierungsschritt etwas Ähnliches passiert.
BN-Anwendungen
Ein besonders interessantes Ergebnis ist, dass das Google-Team mithilfe der Stapelnormalisierung ein Tanh-Inception-Netzwerk einrichten konnte, um auf ImageNet zu trainieren und wettbewerbsfähige Ergebnisse zu erzielen. Tanh ist eine sättigende Nichtlinearität, und es war schwierig, diese Arten von Netzwerken aufgrund ihres Problems mit Sättigungs- / Verschwindungsgradienten zum Lernen zu bringen. Bei Verwendung der Chargennormalisierung kann jedoch davon ausgegangen werden, dass das Netzwerk eine Transformation lernen konnte, die die Aktivierungsausgabewerte auf das nicht gesättigte Regime von tanh-Nichtlinearitäten abbildet.
Schlussbemerkungen
Sie beziehen sich sogar auf dasselbe Yann LeCun-Faktoid, das Sie als Motivation für die Chargennormalisierung erwähnt haben.