Kein Regularisierungsterm für die Bias-Einheit im neuronalen Netz

12

Laut diesem Tutorial zum Tiefenlernen wird Gewichtsabnahme (Regularisierung) normalerweise nicht auf die Verzerrungsterme angewendet. B Warum?

Welche Bedeutung (Intuition) steckt dahinter?

Harshit
quelle
Ich glaube, ich habe eine sehr ähnliche Frage schon einmal gesehen, ich kann sie einfach nicht finden ... Vielleicht sollten Sie verwandte Fragen überprüfen und dann die Antwort finden. Auch vielleicht dies könnte etwas nützlich sein.
Richard Hardy

Antworten:

13

Eine Überanpassung erfordert normalerweise, dass die Ausgabe des Modells empfindlich auf kleine Änderungen der Eingabedaten reagiert (dh um die Zielwerte genau zu interpolieren, ist in der angepassten Funktion in der Regel eine starke Krümmung erforderlich). Die Bias-Parameter tragen nicht zur Krümmung des Modells bei, daher macht es normalerweise wenig Sinn, sie ebenfalls zu regulieren.

Dikran Beuteltier
quelle
5

Die Motivation hinter L2 (oder L1) ist, dass Sie durch Einschränkung der Gewichte und Einschränkung des Netzwerks weniger wahrscheinlich überanpassungsfähig sind. Es ist wenig sinnvoll, die Gewichte der Verzerrungen zu beschränken, da die Verzerrungen fest sind (z. B. b = 1) und somit wie Neuronenabschnitte funktionieren, die sinnvoll sind, um eine höhere Flexibilität zu erhalten.

Ramalho
quelle
1

Ich würde hinzufügen, dass der Bias-Term oft mit einem Mittelwert von 1anstatt von initialisiert wird 0, daher möchten wir ihn möglicherweise so regulieren, dass er nicht zu weit von einem konstanten Wert wie " 1doing 1/2*(bias-1)^2than" entfernt wird 1/2*(bias)^2.

Vielleicht könnte das Ersetzen des -1Teils durch eine Subtraktion zum Mittelwert der Verzerrungen helfen, vielleicht ein Mittelwert pro Schicht oder ein Gesamtmittelwert. Dies ist jedoch nur eine Hypothese, die ich mache (über die mittlere Subtraktion).

Dies hängt alles auch von der Aktivierungsfunktion ab. ZB: Sigmoide sind hier möglicherweise schlecht für das Verschwinden von Verläufen, wenn Vorurteile auf hohe konstante Offsets geregelt werden.

Guillaume Chevalier
quelle
0

Das Tutorial besagt, dass das Anwenden des Gewichtsabfalls auf die Bias-Einheiten normalerweise nur einen kleinen Unterschied zum endgültigen Netzwerk ausmacht. Wenn dies nicht hilft, können Sie damit aufhören, um einen Hyperparameter zu eliminieren. Wenn Sie der Meinung sind, dass das Regularisieren des Offsets in Ihrem Setup hilfreich ist, überprüfen Sie es gegenseitig. Es schadet nicht, es zu versuchen.

Emre
quelle