Approximation zweiter Ordnung der Verlustfunktion (Deep Learning Book, 7.33)

11

In Goodfellow's (2016) Buch über tiefes Lernen sprach er über die Gleichwertigkeit eines frühen Stopps der L2-Regularisierung ( https://www.deeplearningbook.org/contents/regularization.html Seite 247).

Die quadratische Approximation der Kostenfunktion j ist gegeben durch:

J^(θ)=J(w)+12(ww)TH(ww)

wobei H die hessische Matrix ist (Gl. 7.33). Fehlt dies mittelfristig? Taylorentwicklung sollte sein:

f(w+ϵ)=f(w)+f(w)ϵ+12f(w)ϵ2

Stevew
quelle

Antworten:

15

Sie sprechen über die Gewichte im Optimum:

Wir können die Kostenfunktion J mit einer quadratischen Näherung in der Nähe des empirisch optimalen Wertes der Gewichte w modellierenw

Zu diesem Zeitpunkt ist die erste Ableitung Null - der mittlere Term wird somit weggelassen.

Jan Kukacka
quelle