Ja, Sie sollten die Skalierung der Ausgabe berücksichtigen und auch die Skalierung der Kovariaten in berücksichtigen .yX
Sei die Entwurfsmatrix, deren Zeilen Vektoren sind, wobei jeder Eintrag eine Kovariate ist, die zusammen versuchen , die Antwort zu erklärenX∈Rn×py∈Rn. Jeder Eintrag der Antwortyi=f(eTiX)+ϵi (zum i=1,…,n) besteht additiv aus einem Signal, das von den Kovariaten abhängt, und einem mittleren Nullrauschen. Auswahl der Modellierung des Signalsf als annähernd linear führt uns zur LASSO-Schätzung
β^λ=argminβ12n∥y−Xβ∥22+λ∥β∥1,
Wir wissen durch Bedingungen erster Ordnung, dass , wobei ist die duale Variable, die erfüllt wenn und wenn .
−1nXT(y−Xβ^λ)=λz^λz^λz^λ,j=sgn(β^λ,j)β^λ,j≠0z^λ,j∈[−1,1]β^λ,j=0
Anstecken in diese Gleichung sehen wir , dass , wodurchβ^λ=0−1nXTy=λz^λ
1n∥XTy∥∞=λ∥z^λ∥∞.
Wenn , könnte abnehmen (wobei erhöht wird, um die Gleichheit aufrechtzuerhalten) und der LASSO Schätzung wäre immer noch . Daher erhalten wir bei , dem kleinsten Wert von , der , diesen∥z^λ∥∞≠1λ∥z^λ∥∞β^λ=0λmaxλβ^λ=0
1n∥XTy∥∞=λmax⋅1.
Dies sagt uns, dass es nicht notwendig ist, zu berücksichtigen, wenn der LASSO eingestellt wird. In der Praxis standardisieren die meisten Löser die Spalten von so, dass sie nicht direkt berücksichtigt werden müssen. (Beachten Sie, dass es sinnvoll ist, die Kovariaten zu standardisieren, da die Maßeinheiten den geschätzten Koeffizienten nicht beeinflussen sollten.)λ>λmaxX
Der Gratfall wird hier gut diskutiert: Maximale Strafe für Gratregression