Der Gewichtsabfall gibt die Regularisierung im neuronalen Netzwerk an.
Während des Trainings wird dem Verlust des Netzwerks ein Regularisierungsterm hinzugefügt, um den Backpropagation-Gradienten zu berechnen. Der weight decay
Wert bestimmt, wie dominant dieser Regularisierungsterm bei der Gradientenberechnung sein wird.
Als Faustregel gilt: Je mehr Trainingsbeispiele Sie haben, desto schwächer sollte dieser Begriff sein. Je mehr Parameter Sie haben, desto höher sollte dieser Begriff sein.
Weight Decay ist also ein Regularisierungsbegriff, der große Gewichte bestraft. Wenn der Gewichtsabfallkoeffizient groß ist, ist auch die Strafe für große Gewichte groß, wenn kleine Gewichte frei wachsen können.
Wenn Sie nun wieder die Antwort lesen , die Sie in Ihrer Frage verlinkt haben, ist dies jetzt völlig sinnvoll.