Ich habe die Literatur zur Regularisierung durchgesehen und oft Abschnitte gesehen, die die L2-Regulierung mit der Gaußschen Vorgängerversion und L1 mit Laplace auf Null zentriert verbinden.
Ich weiß, wie diese Priors aussehen, aber ich verstehe nicht, wie sie sich beispielsweise in linearen Modellen als Gewichte übersetzen lassen. In L1 erwarten wir, wenn ich das richtig verstehe, spärliche Lösungen, dh einige Gewichte werden auf genau Null verschoben. Und in L2 bekommen wir kleine Gewichte, aber keine Nullgewichte.
Aber warum passiert das?
Bitte kommentieren Sie, wenn ich weitere Informationen benötigen oder meine Denkweise erläutern möchte.
regression
bayesian
prior
regularization
laplace-distribution
Dmitry Smirnov
quelle
quelle
Antworten:
Die Beziehung der Laplace-Verteilung vor dem Median (oder der L1-Norm) wurde von Laplace selbst gefunden, der herausfand, dass Sie den Median unter Verwendung eines solchen vor dem Schätzen eher als den Mittelwert wie bei der Normalverteilung schätzen (siehe Stingler, 1986 oder Wikipedia ). Dies bedeutet, dass die Regression mit Laplace-Fehlerverteilung den Median (wie z. B. die Quantil-Regression) schätzt, während sich normale Fehler auf die OLS-Schätzung beziehen.
Die robusten Priors, nach denen Sie gefragt haben, wurden auch von Tibshirani (1996) beschrieben, der feststellte, dass eine robuste Lasso-Regression in der Bayes'schen Umgebung der Verwendung von Laplace Prior entspricht. Solche Prioritäten für Koeffizienten sind um Null zentriert (mit zentrierten Variablen) und haben breite Schwänze - daher sind die meisten Regressionskoeffizienten, die unter Verwendung dieser Koeffizienten geschätzt werden, genau Null. Dies wird deutlich, wenn Sie das Bild unten genauer betrachten. Die Laplace-Verteilung hat einen Peak um Null (es gibt eine größere Verteilungsmasse), während die Normalverteilung um Null diffuser ist, sodass Nicht-Null-Werte eine größere Wahrscheinlichkeitsmasse haben. Andere Möglichkeiten für robuste Priors sind Cauchy- oder Verteilungen.t
Wenn Sie solche Priors verwenden, sind Sie eher geneigt, viele Koeffizienten mit dem Wert Null zu erhalten, einige mit mittlerer Größe und einige mit großer Größe (Long Tail), während Sie mit Normal Prior eher Koeffizienten mit mittlerer Größe erhalten, die nicht genau Null sind, aber auch nicht so weit von null.
(Bildquelle Tibshirani, 1996)
Stigler, SM (1986). Die Geschichte der Statistik: Die Messung der Unsicherheit vor 1900. Cambridge, MA: Belknap Press von Harvard University Press.
Tibshirani, R. (1996). Regressionsschrumpfung und Selektion über das Lasso. Zeitschrift der Royal Statistical Society. Series B (Methodological), 267 & ndash; 288.
Gelman, A., Jakulin, A., Pittau, GM und Su, Y.-S. (2008). Eine schwach informative Standardvorverteilung für logistische und andere Regressionsmodelle. The Annals of Applied Statistics, 2 (4), 1360-1383.
Norton, RM (1984). Die doppelte Exponentialverteilung: Verwenden von Calculus, um einen Maximum-Likelihood-Schätzer zu finden. The American Statistician, 38 (2): 135-136.
quelle
Frequentist view 👀
In gewissem Sinne können wir uns beide Regularisierungen als "Schrumpfen der Gewichte" vorstellen ; L2 minimiert die euklidische Norm der Gewichte, während L1 die Manhattan-Norm minimiert. Wenn wir dieser Denkweise folgen, können wir annehmen, dass die Äquipotentiale von L1 und L2 sphärisch bzw. rautenförmig sind, sodass L1 mit größerer Wahrscheinlichkeit zu spärlichen Lösungen führt, wie in Bishops Mustererkennung und maschinellem Lernen dargestellt :
Bayesianische Ansicht 👀
Doch um zu verstehen , wie priors auf das lineare Modell bezieht , müssen wir die verstehen , Bayesian Interpretation der gewöhnlichen lineare Regression . Katherine Baileys Blogpost ist dafür eine hervorragende Lektüre. Kurz gesagt, wir nehmen in unserem linearen Modell normalverteilte iid-Fehler an
Wie sich herausstellt ... Der Maximum-Likelihood-Schätzer ist identisch mit der Minimierung des quadratischen Fehlers zwischen vorhergesagten und tatsächlichen Ausgabewerten unter der Normalitätsannahme für den Fehler.
Regularisierung als Priorisierung von Gewichten
Wenn wir den Gewichten der linearen Regression einen ungleichmäßigen Wert voranstellen würden, wäre die Schätzung der maximalen A-posteriori-Wahrscheinlichkeit (MAP):
Jetzt haben wir einen anderen Blick darauf, warum das Setzen eines Laplace-Strichs vor den Gewichten eher zu Sparsamkeit führt: Da sich die Laplace-Verteilung stärker auf Null konzentriert , ist es wahrscheinlicher, dass unsere Gewichte Null sind.
quelle