Warum sollten Sie Lasso-Schätzungen anstelle von OLS-Schätzungen für die von Lasso identifizierte Untergruppe von Variablen verwenden?

Nehmen Sie für die Lasso-Regression dass die beste Lösung (zum Beispiel minimaler Testfehler) Merkmale auswählt . so dass .

L (β) = (X β - y)^{'} (X β - y) + λ ‖ β ‖_{1},

$L(\beta)=(X\beta-y)'(X\beta-y)+\lambda\|\beta\|_1,$

k

$k$

{\hat{β}}^{l a s s o} = ({\hat{β}}_{1}^{l a s s o}, {\hat{β}}_{2}^{l a s s o}, . . ., {\hat{β}}_{k}^{l a s s o}, 0, . . .0)

$\hat{\beta}^{lasso}=\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso},0,...0\right)$

Wir wissen, dass $\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso}\right)$ ist voreingenommene Schätzung von $\left(\beta_1,\beta_2,...,\beta_k\right)$ , also warum nehmen wir immer noch $\hat{\beta}^{lasso}$ als die endgültige Lösung, anstatt die 'vernünftigere' $\hat{\beta}^{new}=\left(\hat{\beta}_{1:k}^{new},0,...,0\right)$ , wobei $\hat{\beta}_{1:k}^{new}$ ist die LS-Schätzung aus Teilmodell $L^{new}(\beta_{1:k})=(X_{1:k}\beta-y)'(X_{1:k}\beta-y)$ . ( $X_{1:k}$ bezeichnet die Spalten von $X$ , die den $k$ ausgewählten Merkmalen entsprechen).

Kurz gesagt, warum verwenden wir Lasso sowohl für die Merkmalsauswahl als auch für die Parameterschätzung, anstatt nur für die Variablenauswahl (und überlassen die Schätzung der ausgewählten Merkmale OLS)?

(Was bedeutet es auch, dass "Lasso höchstens $n$ Merkmale auswählen kann "? $n$ ist die Stichprobengröße.)

regression feature-selection lasso regularization yliueagle
quelle

Das ist eine sehr gute Frage. Haben Sie ein paar Simulationen ausprobiert, um zu sehen, wie unterschiedlich die Ergebnisse von Standard-Lasso wären, wenn Sie es auf Ihre Weise versuchen würden?

Placidia

Haben Sie den Zweck von "Shrinkage" in LASSO verstanden?

Michael M

Die Idee ist, die Koeffizientenschätzungen genau deshalb zu verkleinern, weil Sie die größten ausgewählt haben. Schätzungen für die kleinsten Quadrate sind nicht mehr unvoreingenommen, wenn Sie zuvor die Feature-Auswahl vorgenommen haben.

Scortchi - Wiedereinsetzung von Monica

In der folgenden Frage finden Sie eine gute Antwort auf die Frage "Welches Problem lösen Schrumpfungsmethoden?". stats.stackexchange.com/questions/20295/…

DL Dahly

Um es klar auszudrücken: Es ist falsch, @Scortchi nicht zu sagen, aber dies ist eine Grauzone, wenn es um die Funktionsauswahl geht, und ich denke, dies ist ein wichtiger technischer Punkt, der sehr klar herausgestellt werden sollte.

JohnA

Antworten:

Ich glaube nicht, dass es falsch ist, LASSO für die Variablenauswahl und anschließend OLS zu verwenden. Aus " Elemente des statistischen Lernens " (S. 91)

... die lasso Schrumpfung bewirkt , dass die Schätzungen der Nicht-Null - Koeffizienten auf Null vorgespannt werden und im Allgemeinen sind sie nicht im Einklang [ Hinzugefügt Hinweis: Dies bedeutet , dass, wie die Stichprobengröße wächst, wird die Koeffizientenschätzungen nicht Converge] . Ein Ansatz zum Reduzieren dieser Verzerrung besteht darin, das Lasso auszuführen, um den Satz von Nicht-Null-Koeffizienten zu identifizieren, und dann ein nicht eingeschränktes lineares Modell an den ausgewählten Satz von Merkmalen anzupassen. Dies ist nicht immer möglich, wenn der ausgewählte Satz groß ist. Alternativ können Sie das Lasso verwenden, um den Satz von Prädiktoren ungleich Null auszuwählen, und dann das Lasso erneut anwenden, jedoch nur die ausgewählten Prädiktoren aus dem ersten Schritt. Dies wird als entspanntes Lasso bezeichnet(Meinshausen, 2007). Die Idee ist, eine Kreuzvalidierung zu verwenden, um den anfänglichen Strafparameter für das Lasso und dann erneut für einen zweiten Strafparameter zu schätzen, der auf den ausgewählten Satz von Prädiktoren angewendet wird. Da die Variablen im zweiten Schritt weniger "Konkurrenz" mit Rauschvariablen haben, wird die Kreuzvalidierung dazu neigen, einen kleineren Wert für [den Strafparameter] zu wählen , und daher werden ihre Koeffizienten geringer als diejenigen in der anfänglichen Schätzung verkleinert. $\lambda$

Ein anderer sinnvoller Ansatz, der dem entspannten Lasso ähnelt, besteht darin, Lasso einmal (oder mehrmals hintereinander) zu verwenden, um eine Gruppe von Kandidaten-Prädiktorvariablen zu identifizieren. Verwenden Sie dann die Regression der besten Teilmengen , um die besten zu berücksichtigenden Prädiktorvariablen auszuwählen (siehe dazu auch "Elemente des statistischen Lernens"). Damit dies funktioniert, müssen Sie die Gruppe der Kandidatenprädiktoren auf etwa 35 eingrenzen, was nicht immer möglich ist. Sie können Kreuzvalidierung oder AIC als Kriterium verwenden, um eine Überanpassung zu verhindern.

Alex Williams
quelle

Ein weiterer Teil meiner Frage ist, warum Lasso höchstens n Merkmale auswählen kann. Wenn dies der Fall ist, denke ich, dass OLS für die ausgewählten Funktionen mindestens "gut" ist, da OLS das "BLAU" ist (nicht streng BLAU, da es meistens voreingenommen ist). Stellen Sie sich eine extreme Situation vor, in der Lasso genau die richtigen Merkmale auswählt. Wenn Sie OLS für diese Merkmale ausführen, wird das wahre Modell wiederhergestellt, das meiner Meinung nach besser ist als die Lasso-Schätzung.

Yliueagle

Das Problem ist, dass diese "extreme Situation" sehr unwahrscheinlich ist und es keine Möglichkeit gibt zu wissen, ob LASSO genau die richtigen Funktionen ausgewählt hat. Wenn LASSO zu viele Funktionen auswählt, kann das vollständige OLS-Modell meiner Meinung nach schlechter abschneiden als die LASSO-Schätzungen. In ähnlicher Weise kann die Ridge-Regression OLS übertreffen, wenn zu viele Features vorhanden sind (dh OLS ist überangepasst).

Alex Williams

Siehe auch web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf , das Ende von Abschnitt 2.2: [...] Die Anpassung der kleinsten Quadrate an die Teilmenge der [...] Prädiktoren führt tendenziell zu einer Erweiterung der Lasso-Schätzungen Da die Nicht-Null-Schätzungen des Lassos tendenziell gegen Null verzerrt sind, kann das Debiasing im rechten Bereich häufig den Vorhersagefehler des Modells verbessern. Dieser zweistufige Prozess wird auch als entspanntes Lasso bezeichnet (Meinshausen 2007). . "

Amöbe sagt Reinstate Monica

Ich habe in Meinshausens Papier nachgesehen und es wird empfohlen, zwei Strafparameter anzupassen, wie in Ihrem Originalzitat von The Elements beschrieben. +1

Amöbe sagt Reinstate Monica

@AlexWilliams Aber gibt es im vorherigen Absatz keine sparsame Annahme über die Korrelation zwischen der ausgewählten Menge und der zu entfernenden kleinen Menge?

Dimitriy V. Masterov

Wenn Sie eine optimale In-Sample-Leistung erzielen möchten (bezogen auf das höchste R-Quadrat), verwenden Sie einfach OLS für jede verfügbare Variable. Das Ablegen von Variablen verringert das R-Quadrat.

Wenn Sie eine gute Out-of-Sample-Leistung anstreben (was in der Regel viel wichtiger ist), hat Ihre vorgeschlagene Strategie zwei Ursachen für eine Überanpassung:

Auswahl von Variablen basierend auf Korrelationen mit der Antwortvariablen
OLS-Schätzungen

Der Zweck von LASSO ist es, Parameterschätzungen auf Null zu reduzieren, um über zwei Ursachen von Überanpassung zu kämpfen. In-Sample-Vorhersagen sind immer schlechter als bei OLS, aber es besteht die Hoffnung (abhängig von der Stärke der Bestrafung), ein realistischeres Verhalten außerhalb der Stichprobe zu erzielen.

$p > n$ $p > n$

Michael M
quelle

Der "Leekasso" (immer 10 Koeffizienten auswählen) weicht vom Vorschlag der Frage ab (Neuschätzung der OLS mit k von LASSO ausgewählten Prädiktoren)

Affine

@affine du hast vollkommen recht. Ich habe den Verweis entfernt.

Michael M

Das hört sich vernünftig an, aber die Erfinder von Lasso argumentieren anders und empfehlen tatsächlich die Verwendung eines zweistufigen Verfahrens mit OLS für die von Lasso identifizierte Untergruppe (wie vom OP vorgeschlagen), siehe Antwort von @ Alex.

Amöbe sagt Reinstate Monica

Diese Antwort gefällt mir, weil sie die Auswahlverzerrung aus der Suche selbst erwähnt. es fühlt sich sicher so an, als ob es eine zusätzliche Strafe geben sollte. LASSO als bloßer Teilmengenauswahlmechanismus - ist das alles? Warum werden dann überhaupt die Koeffizienten ausgedruckt?

Ben Ogorek

In Bezug auf die OPs Frage, warum Lasso höchstens n Merkmale auswählen kann :

$X^{T}X$ $\beta = (X^{T} X)^{-1}X^{T}Y$

$X^{T}X$

jmp111
quelle

(X^{T} X)^{- 1}

$(X^TX)^{-1}$