Folgendes habe ich in Ian Goodfellows Buch Deep Learning gelesen .
Im Zusammenhang mit neuronalen Netzen "wird die L2-Parameternormstrafe allgemein als Gewichtsabfall bezeichnet. Diese Regularisierungsstrategie bringt die Gewichte näher an den Ursprung [...]. Allgemeiner könnten wir die Parameter so regulieren, dass sie nahe an einem bestimmten Punkt liegen im Raum ", aber es ist weitaus üblicher, die Modellparameter gegen Null zu regulieren. (Deep Learning, Goodfellow et al.)
Ich bin nur Neugierig. Ich verstehe, dass wir durch einfaches Hinzufügen eines Regularisierungsterms zu unserer Kostenfunktion und durch Minimieren dieser Gesamtkosten die Parameter des Modells so beeinflussen können, dass sie klein bleiben:
Aber wie würde man eine Version dieser Regularisierungsstrategie implementieren, die die Parameter zu einem beliebigen Punkt führen würde? (Sagen wir, wir wollen, dass die Norm in Richtung 5 tendiert)
Definieren w λ = arg min w L ( Θ , X , y ) + λ ‖ w ‖ 2 2 . Wir wissen , dass lim λ → ∞ w λ = 0 , aufgrund der Strafe w ↦ ‖ w ‖ 2 2 den Ursprung als minimizer haben.
Sycorax weist darauf hin, dass in ähnlicher Weise Diese erfolgreiche Verallgemeinerung kann dazu führen, dass wir den Schätzer ˜ w λ = arg min w L ( Θ , X , y ) + λ p e n ( w ) vorschlagenlimλ → ∞{ argMindestwL ( Θ , X., y)+λ∥w−c∥22}=c. wobei p e n eine Funktion ist, deren Minimierer eine Eigenschaft erfüllt, die wir suchen. In der Tat nimmt Sycorax p e n ( w ) = g ( ‖ w ‖ 2 2 - 5 ) an , wobei g am Ursprung (eindeutig) minimiert ist, und insbesondere g ∈ { | ⋅ | ,
Die obige Analyse scheint die beste Lösung zu sein (vielleicht bis zur Wahl von , für die ich keine bessere vorschlagen kann), wenn wir darauf bestehen, dass λ → ∞ die in der Frage beschriebene einzigartige Interpretation von "neigt zu" ist. Jedoch unter der Annahme , dass ‖ arg min w L ( Θ , X , Y ) ‖ 2 2 ≥ 5 , gibt es einige Λ so daß der Minimierungs w Λ von OPs Problem satsifes ‖ w Λ ‖ 2 2 =G λ → ∞ ∥ argMindestwL ( Θ , X., y) ∥22≥ 5 Λ w^Λ . Daher lim λ → & Lgr; ‖ w λ ‖ 2 2 = 5 , ohne dass die Zielfunktion zu ändern. Wenn kein solches Λ existiert, ist das Problem der Berechnung von arg min w : ‖ w ‖ 2 2 = 5 L ( Θ , X , y ) an sich schwierig. Tatsächlich gibt es keine Notwendigkeitalle Schätzer außer zu berücksichtigen w λ , wenn natürliche Eigenschaften zu fördern versuchenvon∥ w^Λ∥22= 5
(Um zu erzwingen, dass ein bestrafter Schätzer einen Wert der Strafe erreicht, der vom nicht bestraften Schätzer nicht erreicht wird, erscheint mir höchst unnatürlich. Wenn jemand Orte kennt, an denen dies tatsächlich erwünscht ist, kommentieren Sie dies bitte!)
quelle
Es sollte leicht sein, die Beispiele von Sycorax im Lichte von MAP zu sehen.
Einzelheiten zu MAP finden Sie in diesen Hinweisen . Nach meiner Erfahrung liefert das Googeln von "Maximum a posteriori Regularisierung" gute Ergebnisse.
quelle