Eine der Beweggründe für das elastische Netz war die folgende Einschränkung von LASSO:
Im Fall wählt das Lasso aufgrund der Art des konvexen Optimierungsproblems höchstens n Variablen aus, bevor es gesättigt wird. Dies scheint ein einschränkendes Merkmal für eine variable Auswahlmethode zu sein. Darüber hinaus ist das Lasso nur dann gut definiert, wenn die Grenze für die L1-Norm der Koeffizienten kleiner als ein bestimmter Wert ist.
( http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full )
Ich verstehe, dass LASSO ein quadratisches Programmierproblem ist, aber auch über LARS oder elementweisen Gradientenabstieg gelöst werden kann. Ich verstehe jedoch nicht, wo bei diesen Algorithmen ein Problem auftritt, wenn wobei p die Anzahl der Prädiktoren und n die Stichprobengröße ist. Und warum wird dieses Problem mit dem elastischen Netz gelöst, bei dem ich das Problem auf p + n- Variablen erweitere, die deutlich über p liegen .
quelle
Antworten:
Wie gesagt, dies ist keine Eigenschaft eines Algorithmus, sondern des Optimierungsproblems. Die KKT Bedingungen im Grunde geben , daß für die Koeffizienten zu sein , nicht Null es mit dem Rest entspricht eine feste Korrelation hat | X t j ( y - X β ) | = λ ( λ ist der Regularisierungsparameter).βj |Xtj(y−Xβ)|=λ λ
Nachdem Sie die verschiedenen Komplikationen mit dem Absolutwert usw. gelöst haben, bleibt eine lineare Gleichung für jeden Nicht-Null-Koeffizienten übrig. Da der Rang der Matrix höchstens n istX n wenn p>n , ist dies die Anzahl der Gleichungen, die gelöst werden können, und daher gibt es höchstens n Nicht-Nullen (es sei denn, es gibt Redundanzen).
Dies gilt übrigens für jede Verlustfunktion, nicht nur für das Standard-Lasso mit -Verlust. Es ist also in der Tat eine Eigenschaft der Lasso-Strafe. Es gibt viele Artikel, die diese KKT-Sicht und die daraus resultierenden Schlussfolgerungen zeigen. Ich kann auf unseren Artikel verweisen: Rosset und Zhu, Piecewise Linear Regularized Solutions Paths, Annals of Stats 2007 und Refs darin.L2
quelle
Eine andere Erklärung ist die folgende: Wenn , ist der Rang der Datenmatrix X höchstens n , so dass die Dimension ihres (rechten) Nullraums mindestens p - n ist . Schreiben Sie einen beliebigen Vektor in diesen Nullraum als z . Dann wird bei jedem zulässigen Punkt β , kann man immer in diesen Schritt p - n -dimensionalen Nullraum in Richtung der Koordinatenachsen des p -dimensionalen Umgebungsraum, bei einem ankommen β + z , wobei (höchstens) N β j s sind ungleich Null und die LASSO-Zielfunktionn<p X n p−n z β p−n p β+z n βj
hat abgenommen.
quelle