Nehmen Sie für die Lasso-Regression dass die beste Lösung (zum Beispiel minimaler Testfehler) Merkmale auswählt . so dass .k β l a s s o = ( β l a s s o 1 , β l a s s O 2 , . . . , β l a
Wir wissen, dass ist voreingenommene Schätzung von , also warum nehmen wir immer noch als die endgültige Lösung, anstatt die 'vernünftigere' , wobei ist die LS-Schätzung aus Teilmodell . ( bezeichnet die Spalten von , die den ausgewählten Merkmalen entsprechen).
Kurz gesagt, warum verwenden wir Lasso sowohl für die Merkmalsauswahl als auch für die Parameterschätzung, anstatt nur für die Variablenauswahl (und überlassen die Schätzung der ausgewählten Merkmale OLS)?
(Was bedeutet es auch, dass "Lasso höchstens Merkmale auswählen kann "? ist die Stichprobengröße.)
quelle
Antworten:
Ich glaube nicht, dass es falsch ist, LASSO für die Variablenauswahl und anschließend OLS zu verwenden. Aus " Elemente des statistischen Lernens " (S. 91)
Ein anderer sinnvoller Ansatz, der dem entspannten Lasso ähnelt, besteht darin, Lasso einmal (oder mehrmals hintereinander) zu verwenden, um eine Gruppe von Kandidaten-Prädiktorvariablen zu identifizieren. Verwenden Sie dann die Regression der besten Teilmengen , um die besten zu berücksichtigenden Prädiktorvariablen auszuwählen (siehe dazu auch "Elemente des statistischen Lernens"). Damit dies funktioniert, müssen Sie die Gruppe der Kandidatenprädiktoren auf etwa 35 eingrenzen, was nicht immer möglich ist. Sie können Kreuzvalidierung oder AIC als Kriterium verwenden, um eine Überanpassung zu verhindern.
quelle
Wenn Sie eine optimale In-Sample-Leistung erzielen möchten (bezogen auf das höchste R-Quadrat), verwenden Sie einfach OLS für jede verfügbare Variable. Das Ablegen von Variablen verringert das R-Quadrat.
Wenn Sie eine gute Out-of-Sample-Leistung anstreben (was in der Regel viel wichtiger ist), hat Ihre vorgeschlagene Strategie zwei Ursachen für eine Überanpassung:
Der Zweck von LASSO ist es, Parameterschätzungen auf Null zu reduzieren, um über zwei Ursachen von Überanpassung zu kämpfen. In-Sample-Vorhersagen sind immer schlechter als bei OLS, aber es besteht die Hoffnung (abhängig von der Stärke der Bestrafung), ein realistischeres Verhalten außerhalb der Stichprobe zu erzielen.
quelle
In Bezug auf die OPs Frage, warum Lasso höchstens n Merkmale auswählen kann :
quelle