Sei ein orthogonaler Projektor auf den Spaltenraum von . Wir haben das
where
H2X2
==minβ1,β2{∥y−X1β1−X2β2∥22+λ∥β1∥1}minβ1,β2{∥H2(y−X1β1)−X2β2∥22+∥(I−H2)(y−X1β1)∥22+λ∥β1∥1}minβ1|β2minβ2{∥H2(y−X1β1)−X2β2∥22+∥(I−H2)(y−X1β1)∥22+λ∥β1∥1},
β^2=argminβ2{∥H2(y−X1β1)−X2β2∥22+∥(I−H2)(y−X1β1)∥22+λ∥β1∥1}=argminβ2{∥H2(y−X1β1)−X2β2∥22}
erfüllt für alle seit für alle . Wenn man in diesem Satz den Fall betrachtet, dass vollen Rang hat, haben wir ferner da in diesem Fall.
X2β^2=H2(y−X1β1)β1H2(y−X1β1)∈col(X2)β1X2β^2=(XT2X2)−1XT2(y−X1β1),
H2=X2(XT2X2)−1X2
Wenn wir dies in das erste Optimierungsproblem einfügen, sehen wir, dass
die mit den üblichen Lasso-Rechenwerkzeugen ausgewertet werden kann. Wie Whuber in seinem Kommentar vorschlägt, ist dieses Ergebnis intuitiv, da die uneingeschränkten Koeffizienten die Spanne von abdecken können , so dass bei der Bewertung von nur der Teil des Raums orthogonal zur Spanne von von Bedeutung ist .
β^1=argminβ1{0+∥(I−H2)(y−X1β1)∥22+λ∥β1∥1}=argminβ1{∥(I−H2)y−(I−H2)X1β1∥22+λ∥β1∥1},(*)
β2X2X2β^1
Obwohl die Notation etwas allgemeiner ist, ist fast jeder, der jemals Lasso verwendet hat, mit diesem Ergebnis vertraut. Um dies zu sehen, nehmen wir an, dass die (Länge ) Vektoren von Einsen sind, die den Achsenabschnitt darstellen. Dann ist die Projektionsmatrix und für jeden Vektor die orthogonale Projektion erniedrigt nur die Vektor. In Anbetracht von Gleichung ist dies genau das, was Menschen tun, wenn sie die Lassokoeffizienten berechnen! Sie erniedrigen die Daten, so dass der Abschnitt nicht berücksichtigt werden muss.X2=1nH2=1(1T1)−11T=1n11Tv(I−H2)v=v−v¯1(∗)