In Goodfellow's (2016) Buch über tiefes Lernen sprach er über die Gleichwertigkeit eines frühen Stopps der L2-Regularisierung ( https://www.deeplearningbook.org/contents/regularization.html Seite 247).
Die quadratische Approximation der Kostenfunktion ist gegeben durch:
wobei die hessische Matrix ist (Gl. 7.33). Fehlt dies mittelfristig? Taylorentwicklung sollte sein: