Wenn p> n, wählt das Lasso höchstens n Variablen aus

13

Eine der Beweggründe für das elastische Netz war die folgende Einschränkung von LASSO:

Im Fall p>n wählt das Lasso aufgrund der Art des konvexen Optimierungsproblems höchstens n Variablen aus, bevor es gesättigt wird. Dies scheint ein einschränkendes Merkmal für eine variable Auswahlmethode zu sein. Darüber hinaus ist das Lasso nur dann gut definiert, wenn die Grenze für die L1-Norm der Koeffizienten kleiner als ein bestimmter Wert ist.

( http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full )

Ich verstehe, dass LASSO ein quadratisches Programmierproblem ist, aber auch über LARS oder elementweisen Gradientenabstieg gelöst werden kann. Ich verstehe jedoch nicht, wo bei diesen Algorithmen ein Problem auftritt, wenn wobei p die Anzahl der Prädiktoren und n die Stichprobengröße ist. Und warum wird dieses Problem mit dem elastischen Netz gelöst, bei dem ich das Problem auf p + n- Variablen erweitere, die deutlich über p liegenp>npnp+np .

user1137731
quelle
2
Wenn Lasso die Verwendung von p <= n einschränkt, ist dies eher ein Nachteil als eine Tugend. Überanpassung ist ein ernstes Problem, das auftritt, wenn p = n. Das Modell mit p = n ist ein gesättigtes Modell, und dieses Modell passt häufig über, weil es perfekt zu den beobachteten Daten passt, aber zukünftige Fälle nicht unbedingt gut vorhersagt.
Michael R. Chernick
3
Dass das Lasso nur bis zu Variablen auswählt , ist darauf zurückzuführen, dass es mit dem LARS-Algorithmus (eine geringfügige Modifikation) gelöst werden kann, der jeweils nur bis zu n Variablen in die aktive Menge aufnimmt. Dass dies in dem elastischen-net Fall nicht gilt folgt im wesentlichen aus dem Einbau der l 2 Strafe und so verhält sich eher wie ridge regression, von denen die letztere normalerweise Ergebnisse in allen Nicht - Null - Koeffizienten sind. nn2
Kardinal
Vielen Dank für die Antworten und wie würde ich sehen, dass höchstens n Variablen für den Gradientenabstieg ausgewählt werden können: Präsentation unter cs.cmu.edu/afs/cs/project/link-3/lafferty/www/ml-stat2/talks/ … Paper (Abschnitt 4) unter datamining.dongguk.ac.kr/papers/GLASSO_JRSSB_V1.final.pdf
user1137731 30.09.12
3
@user: Ich denke, Sie können das mathematische Problem mit seiner numerischen Lösung in Konflikt bringen . Der LARS-Algorithmus zeigt, dass die Lasso-Lösung höchstens Variablen auswählt . Dies ist unabhängig von den tatsächlichen numerischen Mitteln, um zur Lösung zu gelangen, dh der LARS-Algorithmus gibt Aufschluss über das Problem, aber natürlich muss jede andere Methode, die das Problem gleichwertig löst, dieselbe Eigenschaft haben! :-)n
Kardinal
Betrachten Sie ein Feature, das mal dupliziert wurde. Es wird einen Lasso-Schätzer mit genau p Nonzeroes geben (auch wenn p > n ). Daher ist Ihre Aussage nicht so, wie sie geschrieben wurde.ppp>n
user795305

Antworten:

10

Wie gesagt, dies ist keine Eigenschaft eines Algorithmus, sondern des Optimierungsproblems. Die KKT Bedingungen im Grunde geben , daß für die Koeffizienten zu sein , nicht Null es mit dem Rest entspricht eine feste Korrelation hat | X t j ( y - X β ) | = λ ( λ ist der Regularisierungsparameter).βj|Xjt(yXβ)|=λλ

Nachdem Sie die verschiedenen Komplikationen mit dem Absolutwert usw. gelöst haben, bleibt eine lineare Gleichung für jeden Nicht-Null-Koeffizienten übrig. Da der Rang der Matrix höchstens n istXn wenn p>n , ist dies die Anzahl der Gleichungen, die gelöst werden können, und daher gibt es höchstens n Nicht-Nullen (es sei denn, es gibt Redundanzen).

Dies gilt übrigens für jede Verlustfunktion, nicht nur für das Standard-Lasso mit -Verlust. Es ist also in der Tat eine Eigenschaft der Lasso-Strafe. Es gibt viele Artikel, die diese KKT-Sicht und die daraus resultierenden Schlussfolgerungen zeigen. Ich kann auf unseren Artikel verweisen: Rosset und Zhu, Piecewise Linear Regularized Solutions Paths, Annals of Stats 2007 und Refs darin.L2

Saharon Rosset
quelle
Wofür steht KKT? Ist es auch möglich, dass Sie L1-Verlust meinen, wenn Sie über das Standard-Lasso sprechen?
Miura
Hallo Saharon und willkommen auf der Seite. Sie können LaTeX verwenden, um Formeln übersichtlicher zu gestalten (das habe ich in Ihrer Antwort getan), und Sie müssen Ihre Posts nicht signieren, da eine Signatur automatisch hinzugefügt wird.
Peter Flom - Wiedereinsetzung von Monica
1
@miura: KKT steht für Karush-Kuhn-Tucker. Die KKT-Bedingungen sind bestimmte Gleichungen, die Lösungen für (ausreichend regelmäßige) Optimierungsprobleme erfüllen müssen ( Wikipedia-Artikel ).
Mogron
Ich sehe nur, dass Ryan Tibshirani ein sehr relevantes Arbeitspapier 'Das Lasso-Problem und die Einzigartigkeit' hat: stat.cmu.edu/~ryantibs/papers/lassounique.pdf
user1137731 08.10.12
6

Eine andere Erklärung ist die folgende: Wenn , ist der Rang der Datenmatrix X höchstens n , so dass die Dimension ihres (rechten) Nullraums mindestens p - n ist . Schreiben Sie einen beliebigen Vektor in diesen Nullraum als z . Dann wird bei jedem zulässigen Punkt β , kann man immer in diesen Schritt p - n -dimensionalen Nullraum in Richtung der Koordinatenachsen des p -dimensionalen Umgebungsraum, bei einem ankommen β + z , wobei (höchstens) N β j s sind ungleich Null und die LASSO-Zielfunktionn<pXnpnzβpnpβ+zn βj

yX(β+z)22+λβ+z1=yXβ22+λβ+z1<yXβ22+λβ1

hat abgenommen.

user2969758
quelle
(+1) Hier gibt es eine Lücke: siehe meinen Kommentar zu OPs Beitrag.
user795305