22

Ich habe die Literatur zur Regularisierung durchgesehen und oft Abschnitte gesehen, die die L2-Regulierung mit der Gaußschen Vorgängerversion und L1 mit Laplace auf Null zentriert verbinden.

Ich weiß, wie diese Priors aussehen, aber ich verstehe nicht, wie sie sich beispielsweise in linearen Modellen als Gewichte übersetzen lassen. In L1 erwarten wir, wenn ich das richtig verstehe, spärliche Lösungen, dh einige Gewichte werden auf genau Null verschoben. Und in L2 bekommen wir kleine Gewichte, aber keine Nullgewichte.

Aber warum passiert das?

Bitte kommentieren Sie, wenn ich weitere Informationen benötigen oder meine Denkweise erläutern möchte.

regression bayesian prior regularization laplace-distribution Dmitry Smirnov
quelle

Verwandte: Warum entspricht die Lasso-Strafe der doppelten Exponentialzahl (Laplace) vor?

Amöbe sagt Reinstate Monica

1

Eine wirklich einfache intuitive Erklärung ist, dass die Strafe abnimmt, wenn eine L2-Norm verwendet wird, aber nicht, wenn eine L1-Norm verwendet wird. Wenn Sie also den Modellteil der Verlustfunktion ungefähr gleich halten können und Sie dazu eine von zwei Variablen verringern, ist es besser, die Variable mit einem hohen Absolutwert im L2-Fall zu verringern, aber nicht im L1-Fall.

Testbenutzer

21

Die Beziehung der Laplace-Verteilung vor dem Median (oder der L1-Norm) wurde von Laplace selbst gefunden, der herausfand, dass Sie den Median unter Verwendung eines solchen vor dem Schätzen eher als den Mittelwert wie bei der Normalverteilung schätzen (siehe Stingler, 1986 oder Wikipedia ). Dies bedeutet, dass die Regression mit Laplace-Fehlerverteilung den Median (wie z. B. die Quantil-Regression) schätzt, während sich normale Fehler auf die OLS-Schätzung beziehen.

Die robusten Priors, nach denen Sie gefragt haben, wurden auch von Tibshirani (1996) beschrieben, der feststellte, dass eine robuste Lasso-Regression in der Bayes'schen Umgebung der Verwendung von Laplace Prior entspricht. Solche Prioritäten für Koeffizienten sind um Null zentriert (mit zentrierten Variablen) und haben breite Schwänze - daher sind die meisten Regressionskoeffizienten, die unter Verwendung dieser Koeffizienten geschätzt werden, genau Null. Dies wird deutlich, wenn Sie das Bild unten genauer betrachten. Die Laplace-Verteilung hat einen Peak um Null (es gibt eine größere Verteilungsmasse), während die Normalverteilung um Null diffuser ist, sodass Nicht-Null-Werte eine größere Wahrscheinlichkeitsmasse haben. Andere Möglichkeiten für robuste Priors sind Cauchy- oder Verteilungen. $t$

Wenn Sie solche Priors verwenden, sind Sie eher geneigt, viele Koeffizienten mit dem Wert Null zu erhalten, einige mit mittlerer Größe und einige mit großer Größe (Long Tail), während Sie mit Normal Prior eher Koeffizienten mit mittlerer Größe erhalten, die nicht genau Null sind, aber auch nicht so weit von null.

(Bildquelle Tibshirani, 1996)

Stigler, SM (1986). Die Geschichte der Statistik: Die Messung der Unsicherheit vor 1900. Cambridge, MA: Belknap Press von Harvard University Press.

Tibshirani, R. (1996). Regressionsschrumpfung und Selektion über das Lasso. Zeitschrift der Royal Statistical Society. Series B (Methodological), 267 & ndash; 288.

Gelman, A., Jakulin, A., Pittau, GM und Su, Y.-S. (2008). Eine schwach informative Standardvorverteilung für logistische und andere Regressionsmodelle. The Annals of Applied Statistics, 2 (4), 1360-1383.

Norton, RM (1984). Die doppelte Exponentialverteilung: Verwenden von Calculus, um einen Maximum-Likelihood-Schätzer zu finden. The American Statistician, 38 (2): 135-136.

Tim
quelle

Wow, das ist eine sehr gute Erklärung und auch ein besonderer Dank für die verknüpfte Frage, bei der die Regularisierungsnormen intuitiv mit mode, meadian und mean verknüpft sind. Das macht für mich wirklich viel klar!

Dmitry Smirnov

1

@Tim, Die Cauchy-Verteilung hat Heavy Tail, aber die Wahrscheinlichkeit für Zero ist geringer als die Normalverteilung. Wie kommt es also, dass es zu einer spärlichen Lösung kommt?

Royi

4

Frequentist view 👀

In gewissem Sinne können wir uns beide Regularisierungen als "Schrumpfen der Gewichte" vorstellen ; L2 minimiert die euklidische Norm der Gewichte, während L1 die Manhattan-Norm minimiert. Wenn wir dieser Denkweise folgen, können wir annehmen, dass die Äquipotentiale von L1 und L2 sphärisch bzw. rautenförmig sind, sodass L1 mit größerer Wahrscheinlichkeit zu spärlichen Lösungen führt, wie in Bishops Mustererkennung und maschinellem Lernen dargestellt :

Bayesianische Ansicht 👀

Doch um zu verstehen , wie priors auf das lineare Modell bezieht , müssen wir die verstehen , Bayesian Interpretation der gewöhnlichen lineare Regression . Katherine Baileys Blogpost ist dafür eine hervorragende Lektüre. Kurz gesagt, wir nehmen in unserem linearen Modell normalverteilte iid-Fehler an

y = θ^{⊤} X + ϵ

$\mathbf{y} = \mathbf{\theta}^\top\mathbf{X} + \mathbf\epsilon$

$N$ $y_i, i = 1, 2, \ldots, N$ $\epsilon_k\sim \mathcal{N}(0,\sigma)$

$\mathbf{y}$

p (y | X, θ; ϵ) = N (θ^{⊤} X, σ)

$\begin{equation} p(\mathbf{y}|\mathbf{X}, \mathbf{\theta}; \mathbf{\epsilon}) = \mathcal{N}(\mathbf{\theta}^\top\mathbf{X}, \mathbf{\sigma}) \end{equation}$

Wie sich herausstellt ... Der Maximum-Likelihood-Schätzer ist identisch mit der Minimierung des quadratischen Fehlers zwischen vorhergesagten und tatsächlichen Ausgabewerten unter der Normalitätsannahme für den Fehler.

\begin{aligned} {\hat{θ}}_{MLE} & = \arg max_{θ} Log P (y | θ) \\ = \underset{θ}{\arg Mindest} \sum_{ich = 1}^{n} (y_{ich} - θ^{⊤} x_{ich})^{2} \end{aligned}

$\begin{align*} {\bf \hat{\theta}_{\text{MLE}}} &= \arg\max_{\bf \theta} \log P(y | \theta) \\ &=\underset{\theta}{\arg\min} \sum_{i=1}^n(y_i - \theta^\top{\mathbf{x}_i})^2 \end{align*}$

Regularisierung als Priorisierung von Gewichten

Wenn wir den Gewichten der linearen Regression einen ungleichmäßigen Wert voranstellen würden, wäre die Schätzung der maximalen A-posteriori-Wahrscheinlichkeit (MAP):

{\hat{θ}}_{KARTE} = \arg max_{θ} Log P (y | θ) + Log P (θ)

$\begin{equation*} {\bf \hat{\theta}_{\text{MAP}}} = \arg\max_{\bf \theta} \log P(y | \theta) + \log P(\theta) \end{equation*}$

$P(\theta)$ $\theta$

Jetzt haben wir einen anderen Blick darauf, warum das Setzen eines Laplace-Strichs vor den Gewichten eher zu Sparsamkeit führt: Da sich die Laplace-Verteilung stärker auf Null konzentriert , ist es wahrscheinlicher, dass unsere Gewichte Null sind.

Christabella Irwanto
quelle

Warum produziert Laplace vor der Produktion spärliche Lösungen?

Antworten:

Frequentist view 👀

Bayesianische Ansicht 👀

Regularisierung als Priorisierung von Gewichten