Wie implementiere ich die L2-Regularisierung in Richtung eines beliebigen Punktes im Raum?

11

Folgendes habe ich in Ian Goodfellows Buch Deep Learning gelesen .

Im Zusammenhang mit neuronalen Netzen "wird die L2-Parameternormstrafe allgemein als Gewichtsabfall bezeichnet. Diese Regularisierungsstrategie bringt die Gewichte näher an den Ursprung [...]. Allgemeiner könnten wir die Parameter so regulieren, dass sie nahe an einem bestimmten Punkt liegen im Raum ", aber es ist weitaus üblicher, die Modellparameter gegen Null zu regulieren. (Deep Learning, Goodfellow et al.)

Ich bin nur Neugierig. Ich verstehe, dass wir durch einfaches Hinzufügen eines Regularisierungsterms zu unserer Kostenfunktion und durch Minimieren dieser Gesamtkosten $J$ die Parameter des Modells so beeinflussen können, dass sie klein bleiben:

J (Θ, X, y) = L (Θ, X, y) + λ | | w | |_{2}^{2}

$J(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) = L(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) + \lambda||\boldsymbol{w}||_{2}^{2}$

Aber wie würde man eine Version dieser Regularisierungsstrategie implementieren, die die Parameter zu einem beliebigen Punkt führen würde? (Sagen wir, wir wollen, dass die Norm in Richtung 5 tendiert)

machine-learning neural-networks deep-learning regularization Julep
quelle

14

Sie stellen tatsächlich zwei verschiedene Fragen.

Wenn die Norm zu 5 tendiert, bedeutet dies, dass Sie möchten, dass sich die Gewichte in der Nähe der Oberfläche einer Hypersphäre befinden, die am Ursprung mit Radius 5 zentriert ist. Diese Regularisierung sieht ungefähr so aus

J. (Θ, X., y) = L. (Θ, X., y) + λ (| | w | |_{2}^{2} - - 5)^{2}

$J(\Theta, X, y) = L(\Theta, X, y) + \lambda (||w||_2^2-5)^2$

Aber Sie könnten stattdessen so etwas wie , nehme ich an. $\lambda \cdot\text{abs}(||w||_2^2-5)$

Auf der anderen Seite, wenn Sie auf einem beliebigen Punkt neigen wollen, müssen Sie nur diesen Punkt als Mittelpunkt verwenden . $c$

J. (Θ, X., y) = L. (Θ, X., y) + λ | | w - - c | |_{2}^{2}

$J(\Theta, X, y) = L(\Theta, X, y) + \lambda ||w-c||_2^2$

Sycorax sagt Reinstate Monica
quelle

(+1) Ich denke, eine fruchtbare Art, über die "Norm, die zu fünf tendiert" nachzudenken, könnte die Wahl des Abstimmungsparameters in der von OP gegebenen Version von

(anstatt die Funktion zu ändern)

J

$J$

user795305

(Ich habe eine kurze Antwort geschrieben, um zu verdeutlichen, was ich oben meine. Vielen Dank übrigens, dass Sie die Unterscheidung der beiden gestellten Fragen

geklärt haben

Ein gemeinsames (praktisches) Ziel dabei ist die Regularisierung auf einen bekannten Betriebspunkt, z. B. das vorherige Modell, das Sie ersetzen möchten, für das Sie jedoch einen "reibungslosen" Übergang

wünschen

6

Definieren Wir wissen , dass , aufgrund der Strafe den Ursprung als minimizer haben.

{\hat{w}}_{λ} = \arg \underset{w}{Mindest} L. (Θ, X., y) + λ ‖ w ‖_{2}^{2} .

$\hat w_\lambda = \arg\min_w L(\Theta, X, y) + \lambda \|w\|_2^2.$

lim_{λ \to \infty} {\hat{w}}_{λ} = 0

$\lim_{\lambda \to \infty} \hat w_\lambda = 0$

w \mapsto ‖ w ‖_{2}^{2}

$w \mapsto \|w\|_2^2$

Sycorax weist darauf hin, dass in ähnlicher Weise Diese erfolgreiche Verallgemeinerung kann dazu führen, dass wir den Schätzer vorschlagen $\lim_{\lambda \to \infty} \left\{ \arg\min_w L(\Theta, X, y) + \lambda \|w-c\|_2^2 \right\} = c.$ wobei eine Funktion ist, deren Minimierer eine Eigenschaft erfüllt, die wir suchen. In der Tat nimmt Sycorax , wobei am Ursprung (eindeutig) minimiert ist, und insbesondere

{\tilde{w}}_{λ} = \arg min_{w} L (Θ, X, y) + λ p e n (w),

$\tilde w_\lambda = \arg\min_w L(\Theta, X, y) + \lambda \mathrm{pen}(w),$

p e n

$\mathrm{pen}$

p e n (w) = g (‖ w ‖_{2}^{2} - 5)

$\mathrm{pen}(w) = g(\|w\|_2^2 - 5)$

g

$g$

. Daher ist

, wie gewünscht. Leider führen beide Entscheidungen von

zu Strafen, die nicht konvex sind, was dazu führt, dass der Schätzer schwer zu berechnen ist.

g \in {| \cdot |, (\cdot)^{2}}

$g \in \{|\cdot|, \, (\cdot)^2\}$

lim_{λ \to \infty} ‖ {\tilde{w}}_{λ} ‖_{2}^{2} = 5

$\lim_{\lambda \to \infty} \|\tilde w_\lambda \|_2^2 = 5$

g

$g$

Die obige Analyse scheint die beste Lösung zu sein (vielleicht bis zur Wahl von , für die ich keine bessere vorschlagen kann), wenn wir darauf bestehen, dass die in der Frage beschriebene einzigartige Interpretation von "neigt zu" ist. Jedoch unter der Annahme , dass , gibt es einige so daß der Minimierungs von OPs Problem satsifes $g$ $\lambda \to \infty$ $\|\arg\min_w L(\Theta, X, y) \|_2^2 \geq 5$ $\Lambda$ $\hat w_\Lambda$ . Daher ohne dass die Zielfunktion zu ändern. Wenn kein solches existiert, ist das Problem der Berechnung von sich schwierig. Tatsächlich gibt es keine Notwendigkeitalle Schätzer außer zu berücksichtigen , wenn natürliche Eigenschaften zu fördern versuchenvon $\|\hat w_\Lambda\|_2^2 = 5$

lim_{λ \to Λ} {‖ {\hat{w}}_{λ} ‖}_{2}^{2} = 5,

$\lim_{\lambda \to \Lambda} \left\| \hat w_\lambda \right\|_2^2 = 5,$

Λ

$\Lambda$

\arg min_{w : ‖ w ‖_{2}^{2} = 5} L (Θ, X, y)

$\arg\min_{w : \|w\|_2^2 = 5} L(\Theta, X, y)$

{\hat{w}}_{λ}

$\hat w_\lambda$

‖ {\hat{w}}_{λ} ‖_{2}^{2}

$\|\hat w_\lambda\|_2^2$

(Um zu erzwingen, dass ein bestrafter Schätzer einen Wert der Strafe erreicht, der vom nicht bestraften Schätzer nicht erreicht wird, erscheint mir höchst unnatürlich. Wenn jemand Orte kennt, an denen dies tatsächlich erwünscht ist, kommentieren Sie dies bitte!)

user795305
quelle

1

Dies ist eine hervorragende Ergänzung. +1

Sycorax sagt Reinstate Monica

2

$L$ $J$ kann als negative Log-Wahrscheinlichkeit für eine vorherige Verteilung angesehen werden. Dieser Ansatz wird als Maximum A Posteriori (MAP) bezeichnet.

Es sollte leicht sein, die Beispiele von Sycorax im Lichte von MAP zu sehen.

Einzelheiten zu MAP finden Sie in diesen Hinweisen . Nach meiner Erfahrung liefert das Googeln von "Maximum a posteriori Regularisierung" gute Ergebnisse.

Jakub Bartczuk
quelle

Wie implementiere ich die L2-Regularisierung in Richtung eines beliebigen Punktes im Raum?

Antworten: