Während ich die Batch-Normalisierung lernte, dachte ich, warum können wir das "Gradientenskalenproblem" nicht mit einer geeigneten Aktivierungsfunktion lösen?
Können wir die Aktivierungsfunktion nicht verzögern und skalieren, anstatt den gesamten Datensatz zu skalieren und sicherzustellen, dass die Varianz dadurch erhalten bleibt?
machine-learning
Totem
quelle
quelle
Antworten:
Was Sie beschreiben, klingt sehr nach skalierten exponentiellen linearen Einheiten (Scaled-Exponential Linear Units, SELUs), die den Kern selbstnormalisierender neuronaler Netze bilden , die auf der NIPS 2017 vorgestellt wurden.
Eine kurze Zusammenfassung von hier ist:
Vielleicht möchten Sie einen Blick auf die reddit Post-Kommentare werfen . Wenn Sie sie vollständig verstehen möchten, können Sie mit dem 90-seitigen Anhang des arxiv-Vorabdrucks fortfahren .
Sie haben viel Aufmerksamkeit erhalten, als sie präsentiert wurden, aber ich denke, sie haben die Erwartungen nicht erfüllt, da in letzter Zeit im Internet niemand über sie zu sprechen scheint .
quelle
elu
bestätigt Ihre letzte Aussage: Die Leistung ist sehr ähnlichrelu
, nicht viel besser oder schlechter, aber langsamer.