Als «batch-normalization» getaggte Fragen

20
Wie und warum verwendet die Batch-Normalisierung gleitende Mittelwerte, um die Genauigkeit des Modells während des Trainings zu verfolgen?

Ich habe das Batch-Normalisierungspapier ( 1) gelesen und nicht verstanden, dass es notwendig ist, gleitende Durchschnitte zu verwenden, um die Genauigkeit des Modells zu verfolgen, und selbst wenn ich akzeptiere, dass dies das Richtige ist, verstehe ich es nicht was sie genau tun. Nach meinem...

8
Gibt es Möglichkeiten, mit dem verschwindenden Gradienten für die Sättigung von Nichtlinearitäten umzugehen, bei denen keine Chargennormalisierung oder ReLu-Einheiten erforderlich sind?

Ich wollte ein Netzwerk mit Nichtlinearitäten trainieren, die unter dem Verschwinden leiden (oder dem explodierenden Gradientenproblem, obwohl es hauptsächlich verschwindet). Ich weiß, dass die (derzeitige) Standardmethode darin besteht, die Chargennormalisierung 1 [BN] 1 zu verwenden oder einfach...