Gibt es eine Bayes'sche Interpretation der linearen Regression mit simultaner L1- und L2-Regularisierung (auch bekannt als elastisches Netz)?

17

Es ist allgemein bekannt, dass eine lineare Regression mit einer 1 Strafe gleichbedeutend ist mit dem Finden der MAP-Schätzung, wenn ein Gaußscher Wert vor den Koeffizienten angegeben wird. In ähnlicher Weise ist die Verwendung einer Strafe gleichbedeutend mit der Verwendung einer Laplace-Verteilung wie zuvor.l 1l2l1

Es ist nicht ungewöhnlich, eine gewichtete Kombination von und Regularisierungen zu verwenden. Können wir sagen, dass dies einer gewissen vorherigen Verteilung über die Koeffizienten entspricht (intuitiv scheint es so zu sein)? Können wir dieser Verteilung eine schöne analytische Form geben (vielleicht eine Mischung aus Gauß und Laplace)? Wenn nein, warum nicht?l 2l1l2

Michael Curry
quelle
1
siehe dieses Papier: tandfonline.com/doi/abs/10.1198/jasa.2011.tm09241 (Wenn dies in ein oder zwei Wochen nicht richtig beantwortet wird,
poste
7
Ich sollte hinzufügen , dass alle Zeit Frequentisten eine Strafe haben kann ein Bayes interpretieren , dass als (möglicherweise unzulässigen) vor unter einem Standard - Gaußsche Modell. e - p e npene-pen
user795305
danke, dieses Papier und seine Zitate beantworten meine Frage perfekt!
Michael Curry
Groß! Haben Sie etwas dagegen, darauf hinzuweisen, welche Zitate Sie meinen? (Ich habe vor, diesen
Artikel
1
Okay, cool! Ich denke, ihre bayesianische Interpretation
passt

Antworten:

6

Bens Kommentar ist wahrscheinlich ausreichend, aber ich gebe noch einige Referenzen an, von denen eine aus der Zeit vor der Veröffentlichung stammt, auf die Ben verwiesen hat.

Eine Bayes'sche elastische Netzdarstellung wurde von Kyung et. al. in ihrem Abschnitt 3.1. Obwohl der Prior für den Regressionskoeffizienten korrekt war, haben die Autoren die Mischungsdarstellung falsch aufgeschrieben.β

Ein korrigiertes Bayes'sches Modell für das elastische Netz wurde kürzlich von Roy und Chakraborty vorgeschlagen (ihre Gleichung 6). Die Autoren präsentieren auch einen geeigneten Gibbs-Sampler, der aus der posterioren Verteilung entnommen werden kann, und zeigen, dass der Gibbs-Sampler mit einer geometrischen Geschwindigkeit zur stationären Verteilung konvergiert. Aus diesem Grund könnten sich diese Referenzen zusätzlich zum Hans-Papier als nützlich erweisen .

Greenparker
quelle
(+1) Tolle Antwort!
user795305
1
Für alle in der Zukunft - die Artikel sind alle einen Blick wert, aber der Hans-Artikel bietet Ihnen einige Gibbs-Sampler für verschiedene Distributionen sowie eine hierarchische Darstellung des Prior, die leicht in Stan übersetzt werden kann.
Michael Curry