Wir alle kennen die in der Literatur gut dokumentierte Vorstellung, dass die LASSO-Optimierung (der Einfachheit halber hier auf den Fall der linearen Regression beschränkt) ist äquivalent zu dem linearen Modell mit Gaußschen Fehlern, bei dem die Parameter mit dem Laplace-Prioritätswert sind. , je größer der Anteil der Parameter ist, desto Null wird gesetzt. Vor diesem Hintergrund habe ich folgende Gedankenfrage:
Man bedenke, dass man aus Bayes-Sicht die posteriore Wahrscheinlichkeit berechnen kann, dass beispielsweise die Nicht-Null-Parameterschätzungen in einer gegebenen Sammlung von Intervallen liegen und die vom LASSO auf Null gesetzten Parameter gleich Null sind. Was mich verwirrt hat, ist, dass der Laplace-Prior stetig ist (tatsächlich absolut stetig). Wie kann es dann irgendeine Masse auf einer Menge geben, die ein Produkt von Intervallen und Singuletten bei ?
quelle
Antworten:
Wie alle obigen Kommentare nimmt die Bayes'sche Interpretation von LASSO nicht den erwarteten Wert der posterioren Verteilung an, was Sie tun würden, wenn Sie Purist wären. Wenn dies der Fall wäre, dann hätten Sie Recht, dass die Wahrscheinlichkeit sehr gering ist, dass der hintere Teil angesichts der Daten Null ist.
In Wirklichkeit nimmt die Bayes'sche Interpretation von LASSO den MAP-Schätzer (Maximum A Posteriori) des posterior. Es hört sich so an, als wären Sie vertraut, aber für alle, die es nicht sind, ist dies im Grunde genommen die Bayes'sche maximale Wahrscheinlichkeit, bei der Sie den Wert verwenden, der der maximalen Eintrittswahrscheinlichkeit (oder dem Modus) als Schätzer für die Parameter in LASSO entspricht. Da die Verteilung aus negativer Richtung exponentiell bis auf Null ansteigt und in positiver Richtung exponentiell abfällt, ist der Maximalwert für den Wert Ihres Seitenzahns wahrscheinlich 0, es sei denn, Ihre Daten weisen eindeutig auf einen anderen signifikanten Beta-Wert hin.
Um es kurz zu machen, Ihre Intuition scheint auf dem Mittelwert des Seitenzahns zu beruhen, aber die Bayes'sche Interpretation von LASSO basiert auf der Annahme des Modus des Seitenzahns.
quelle