Wie funktioniert der Momentum-Term für den Backpropagation-Algorithmus?

Sollte bei der Aktualisierung der Gewichte eines neuronalen Netzwerks unter Verwendung des Backpropagation-Algorithmus mit einem Impulsausdruck die Lernrate auch auf den Impulsausdruck angewendet werden?

Die meisten Informationen, die ich über die Verwendung von Momentum finden konnte, sehen ungefähr so aus:

$W_{i}' = W_{i} - \alpha \Delta W_i + \mu \Delta W_{i-1}$

Dabei ist die Lernrate und der Momentumterm. $\alpha$ $\mu$

Wenn der Term größer als der Term ist, hat in der nächsten Iteration das aus der vorherigen Iteration einen größeren Einfluss auf das Gewicht als das aktuelle. $\mu$ $\alpha$ $\Delta W$

Ist dies der Zweck des Momentum-Terms? oder sollte die Gleichung eher so aussehen?

$W_{i}' = W_{i} - \alpha( \Delta W_i + \mu \Delta W_{i-1})$

dh. alles nach der Lernrate skalieren?

machine-learning neural-networks guskenny83
quelle

Antworten:

Unter Verwendung von Backpropagation mit Impuls in einem Netzwerk mit verschiedenen Gewichten die te Korrektur für das Gewicht gegeben durch $n$ $W_k$ $i$ $W_k$

wobei $\Delta W_k(i) = -\alpha \frac{\partial E}{\partial W_k} + \mu \Delta W_k(i-1)$ ist die Variation des Verlustes für. $\frac{\partial E}{\partial W_k}$ $W_k$

Die Einführung der Impulsrate ermöglicht die Dämpfung von Schwingungen im Gradientenabstieg. Die geometrische Idee hinter dieser Idee kann wahrscheinlich am besten anhand einer Eigenraumanalyse im linearen Fall verstanden werden. Wenn das Verhältnis zwischen dem niedrigsten und dem größten Eigenwert groß ist, ist die Durchführung eines Gradientenabfalls langsam, selbst wenn die Lernrate aufgrund der Konditionierung der Matrix groß ist. Der Impuls führt zu einem gewissen Ausgleich bei der Aktualisierung zwischen den Eigenvektoren, die niedrigeren und größeren Eigenwerten zugeordnet sind.

Für weitere Details verweise ich

http://page.mi.fu-berlin.de/rojas/neural/chapter/K8.pdf

nico
quelle

Was bedeutet die Unterbrücke?

David Richerby

Δ W_{k}

$\Delta W_k$

μ W_{k} (i - 1)

$\mu W_k(i-1)$

μ Δ W_{k} (i - 1)

$\mu \Delta W_k(i-1)$

Δ W_{k} (i - 1)

$\Delta W_k(i-1)$

Was meinst du mit "Variation des Verlustes"? Ist das so etwas wie "Variation im Fehler"?

Starbeamrainbowlabs

Es bedeutet nichts als die Ableitung des Fehlers in Bezug auf Gewichte.

Nico