Approximation zweiter Ordnung der Verlustfunktion (Deep Learning Book, 7.33)

In Goodfellow's (2016) Buch über tiefes Lernen sprach er über die Gleichwertigkeit eines frühen Stopps der L2-Regularisierung ( https://www.deeplearningbook.org/contents/regularization.html Seite 247).

Die quadratische Approximation der Kostenfunktion $j$ ist gegeben durch:

\hat{J} (θ) = J (w^{*}) + \frac{1}{2} (w - w^{*})^{T} H (w - w^{*})

$\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*)$

wobei $H$ die hessische Matrix ist (Gl. 7.33). Fehlt dies mittelfristig? Taylorentwicklung sollte sein:

f (w + ϵ) = f (w) + f^{'} (w) \cdot ϵ + \frac{1}{2} f^{″} (w) \cdot ϵ^{2}

$f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2$

neural-networks deep-learning loss-functions derivative Stevew
quelle

Antworten:

Sie sprechen über die Gewichte im Optimum:

Wir können die Kostenfunktion $J$ mit einer quadratischen Näherung in der Nähe des empirisch optimalen Wertes der Gewichte modellieren $w^∗$

Zu diesem Zeitpunkt ist die erste Ableitung Null - der mittlere Term wird somit weggelassen.

Jan Kukacka
quelle