Sollte bei der Aktualisierung der Gewichte eines neuronalen Netzwerks unter Verwendung des Backpropagation-Algorithmus mit einem Impulsausdruck die Lernrate auch auf den Impulsausdruck angewendet werden?
Die meisten Informationen, die ich über die Verwendung von Momentum finden konnte, sehen ungefähr so aus:
Dabei ist die Lernrate und der Momentumterm.μ
Wenn der Term größer als der Term ist, hat in der nächsten Iteration das aus der vorherigen Iteration einen größeren Einfluss auf das Gewicht als das aktuelle.α Δ W.
Ist dies der Zweck des Momentum-Terms? oder sollte die Gleichung eher so aussehen?
dh. alles nach der Lernrate skalieren?
quelle