Wie funktioniert der Momentum-Term für den Backpropagation-Algorithmus?

9

Sollte bei der Aktualisierung der Gewichte eines neuronalen Netzwerks unter Verwendung des Backpropagation-Algorithmus mit einem Impulsausdruck die Lernrate auch auf den Impulsausdruck angewendet werden?

Die meisten Informationen, die ich über die Verwendung von Momentum finden konnte, sehen ungefähr so ​​aus:

Wi=WiαΔWi+μΔWi1

Dabei ist die Lernrate und der Momentumterm.μαμ

Wenn der Term größer als der Term ist, hat in der nächsten Iteration das aus der vorherigen Iteration einen größeren Einfluss auf das Gewicht als das aktuelle.α Δ W.μαΔW

Ist dies der Zweck des Momentum-Terms? oder sollte die Gleichung eher so aussehen?

Wi=Wiα(ΔWi+μΔWi1)

dh. alles nach der Lernrate skalieren?

guskenny83
quelle

Antworten:

10

Unter Verwendung von Backpropagation mit Impuls in einem Netzwerk mit verschiedenen Gewichten W k ist die i- te Korrektur für das Gewicht W k gegeben durchnWkiWk

wobeiE.ΔWk(i)=αEWk+μΔWk(i1) ist die Variation des Verlustes fürWk.EWkWk

Die Einführung der Impulsrate ermöglicht die Dämpfung von Schwingungen im Gradientenabstieg. Die geometrische Idee hinter dieser Idee kann wahrscheinlich am besten anhand einer Eigenraumanalyse im linearen Fall verstanden werden. Wenn das Verhältnis zwischen dem niedrigsten und dem größten Eigenwert groß ist, ist die Durchführung eines Gradientenabfalls langsam, selbst wenn die Lernrate aufgrund der Konditionierung der Matrix groß ist. Der Impuls führt zu einem gewissen Ausgleich bei der Aktualisierung zwischen den Eigenvektoren, die niedrigeren und größeren Eigenwerten zugeordnet sind.

Für weitere Details verweise ich

http://page.mi.fu-berlin.de/rojas/neural/chapter/K8.pdf

nico
quelle
Was bedeutet die Unterbrücke?
David Richerby
ΔWkμWk(i1)μΔWk(i1)
ΔWk(i1)
Was meinst du mit "Variation des Verlustes"? Ist das so etwas wie "Variation im Fehler"?
Starbeamrainbowlabs
Es bedeutet nichts als die Ableitung des Fehlers in Bezug auf Gewichte.
Nico