Wie implementiere ich die L2-Regularisierung in Richtung eines beliebigen Punktes im Raum?

11

Folgendes habe ich in Ian Goodfellows Buch Deep Learning gelesen .

Im Zusammenhang mit neuronalen Netzen "wird die L2-Parameternormstrafe allgemein als Gewichtsabfall bezeichnet. Diese Regularisierungsstrategie bringt die Gewichte näher an den Ursprung [...]. Allgemeiner könnten wir die Parameter so regulieren, dass sie nahe an einem bestimmten Punkt liegen im Raum ", aber es ist weitaus üblicher, die Modellparameter gegen Null zu regulieren. (Deep Learning, Goodfellow et al.)

Ich bin nur Neugierig. Ich verstehe, dass wir durch einfaches Hinzufügen eines Regularisierungsterms zu unserer Kostenfunktion und durch Minimieren dieser Gesamtkosten J die Parameter des Modells so beeinflussen können, dass sie klein bleiben:

J(Θ,X,y)=L(Θ,X,y)+λ||w||22

Aber wie würde man eine Version dieser Regularisierungsstrategie implementieren, die die Parameter zu einem beliebigen Punkt führen würde? (Sagen wir, wir wollen, dass die Norm in Richtung 5 tendiert)

Julep
quelle

Antworten:

14

Sie stellen tatsächlich zwei verschiedene Fragen.

  1. Wenn die Norm zu 5 tendiert, bedeutet dies, dass Sie möchten, dass sich die Gewichte in der Nähe der Oberfläche einer Hypersphäre befinden, die am Ursprung mit Radius 5 zentriert ist. Diese Regularisierung sieht ungefähr so ​​aus

J.(Θ,X.,y)=L.(Θ,X.,y)+λ(||w||22- -5)2

Aber Sie könnten stattdessen so etwas wie , nehme ich an.λAbs(||w||22- -5)

  1. Auf der anderen Seite, wenn Sie auf einem beliebigen Punkt neigen wollen, müssen Sie nur diesen Punkt als Mittelpunkt verwenden .c

J.(Θ,X.,y)=L.(Θ,X.,y)+λ||w- -c||22
Sycorax sagt Reinstate Monica
quelle
(+1) Ich denke, eine fruchtbare Art, über die "Norm, die zu fünf tendiert" nachzudenken, könnte die Wahl des Abstimmungsparameters in der von OP gegebenen Version von (anstatt die Funktion zu ändern)J.
user795305
(Ich habe eine kurze Antwort geschrieben, um zu verdeutlichen, was ich oben meine. Vielen Dank übrigens, dass Sie die Unterscheidung der beiden gestellten Fragen
geklärt haben
Ein gemeinsames (praktisches) Ziel dabei ist die Regularisierung auf einen bekannten Betriebspunkt, z. B. das vorherige Modell, das Sie ersetzen möchten, für das Sie jedoch einen "reibungslosen" Übergang
wünschen
6

Definieren w λ = arg min w L ( Θ , X , y ) + λ w 2 2 . Wir wissen , dass lim λ w λ = 0 , aufgrund der Strafe w w 2 2 den Ursprung als minimizer haben.

w^λ=argMindestwL.(Θ,X.,y)+λw22.
limλw^λ=0ww22

Sycorax weist darauf hin, dass in ähnlicher Weise Diese erfolgreiche Verallgemeinerung kann dazu führen, dass wir den Schätzer ˜ w λ = arg min w L ( Θ , X , y ) + λ p e n ( w ) vorschlagenlimλ{argminwL(Θ,X,y)+λwc22}=c. wobei p e n eine Funktion ist, deren Minimierer eine Eigenschaft erfüllt, die wir suchen. In der Tat nimmt Sycorax p e n ( w ) = g ( w 2 2 - 5 ) an , wobei g am Ursprung (eindeutig) minimiert ist, und insbesondere g { | | ,

w~λ=argminwL(Θ,X,y)+λpen(w),
penpen(w)=g(w225)g . Daher ist lim λ ˜ w λ 2 2 = 5 , wie gewünscht. Leider führen beide Entscheidungen von g zu Strafen, die nicht konvex sind, was dazu führt, dass der Schätzer schwer zu berechnen ist.g{||,()2}limλw~λ22=5G

Die obige Analyse scheint die beste Lösung zu sein (vielleicht bis zur Wahl von , für die ich keine bessere vorschlagen kann), wenn wir darauf bestehen, dass λ die in der Frage beschriebene einzigartige Interpretation von "neigt zu" ist. Jedoch unter der Annahme , dass arg min w L ( Θ , X , Y ) 2 25 , gibt es einige Λ so daß der Minimierungs w Λ von OPs Problem satsifes w Λ 2 2 =GλargMindestwL.(Θ,X.,y)225Λw^Λ . Daher lim λ & Lgr;w λ2 2 = 5 , ohne dass die Zielfunktion zu ändern. Wenn kein solches Λ existiert, ist das Problem der Berechnung von arg min w : w 2 2 = 5 L ( Θ , X , y ) an sich schwierig. Tatsächlich gibt es keine Notwendigkeitalle Schätzer außer zu berücksichtigen w λ , wenn natürliche Eigenschaften zu fördern versuchenvonw^Λ22=5

limλΛw^λ22=5,
ΛargMindestw::w22=5L.(Θ,X.,y)w^λw^λ22

(Um zu erzwingen, dass ein bestrafter Schätzer einen Wert der Strafe erreicht, der vom nicht bestraften Schätzer nicht erreicht wird, erscheint mir höchst unnatürlich. Wenn jemand Orte kennt, an denen dies tatsächlich erwünscht ist, kommentieren Sie dies bitte!)

user795305
quelle
1
Dies ist eine hervorragende Ergänzung. +1
Sycorax sagt Reinstate Monica
2

L.J.kann als negative Log-Wahrscheinlichkeit für eine vorherige Verteilung angesehen werden. Dieser Ansatz wird als Maximum A Posteriori (MAP) bezeichnet.

Es sollte leicht sein, die Beispiele von Sycorax im Lichte von MAP zu sehen.

Einzelheiten zu MAP finden Sie in diesen Hinweisen . Nach meiner Erfahrung liefert das Googeln von "Maximum a posteriori Regularisierung" gute Ergebnisse.

Jakub Bartczuk
quelle