Bei der komprimierten Abtastung gibt es einen Satz, der garantiert, dass
Gibt es einen ähnlichen Satz für Lasso? Wenn es einen solchen Satz gibt, garantiert er nicht nur die Stabilität des Lassos, sondern bietet dem Lasso auch eine aussagekräftigere Interpretation:
Lasso kann den spärlichen Regressionskoeffizientenvektor aufdecken, der verwendet wird, um die Antwort durch zu erzeugen .
Es gibt zwei Gründe, warum ich diese Frage stelle:
Ich denke, "Lasso bevorzugt eine spärliche Lösung" ist keine Antwort darauf, warum Lasso für die Funktionsauswahl verwendet wird, da wir nicht einmal sagen können, welchen Vorteil die von uns ausgewählten Funktionen haben.
Ich habe gelernt, dass Lasso dafür berüchtigt ist, bei der Auswahl von Features instabil zu sein. In der Praxis müssen wir Bootstrap-Beispiele ausführen, um die Stabilität zu bewerten. Was ist der wichtigste Grund für diese Instabilität?
Blinddarm:
Gegeben ist . ist ein sparsamer Vektor ( ). Der Prozess erzeugt die Antwort . Wenn den NSP (Nullraum-Eigenschaft) der Ordnung und die Kovarianzmatrix von keinen Eigenwert nahe Null hat, gibt es eine eindeutige Lösung für was genau das , das ergibt
Was dieser Satz auch sagt, ist auch, wenn nicht den NSP der Ordnung , ist es einfach hoffnungslos, .Ω argmin c : y = X c ‖ c ‖ 1
BEARBEITEN:
Nachdem ich diese großartigen Antworten erhalten hatte, stellte ich fest, dass ich verwirrt war, als ich diese Frage stellte.
Warum diese Frage verwirrend ist:
Ich habe eine Forschungsarbeit gelesen , in der wir entscheiden müssen, wie viele Merkmale (Spalten) die Entwurfsmatrix haben wird (Hilfsmerkmale werden aus primären Merkmalen erstellt). Da es sich um ein typisches Problem handelt, wird erwartet, dass gut konstruiert ist, so dass die Lösung für Lasso eine gute Annäherung an die real spärliche Lösung sein kann.
Die Argumentation ergibt sich aus dem Satz, den ich im Anhang erwähnt habe: Wenn wir eine sparsame Lösung c finden wollen , hat X besser den NSP der Ordnung Ω .
Wenn für eine allgemeine Matrix N > C Ω ln M verletzt wird, dann
Eine stabile und robuste Gewinnung von aus D und P ist nicht möglich
entspricht X , P entspricht y
... wie aus der Beziehung erwartet , wird die Auswahl des Deskriptors instabiler, dh für verschiedene Trainingssätze unterscheidet sich der ausgewählte Deskriptor häufig ...
Das zweite Zitat ist der Teil, der mich verwirrt. Es scheint mir, wenn die Ungleichung verletzt wird, ist es nicht nur die Lösung, die möglicherweise nicht eindeutig ist (nicht erwähnt), sondern der Deskriptor wird auch instabiler.
quelle
Antworten:
AKTUALISIEREN
In diesem zweiten Beitrag finden Sie McDonalds Feedback zu meiner Antwort, in der der Begriff der Risikokonsistenz mit der Stabilität zusammenhängt.
1) Einzigartigkeit gegen Stabilität
Ihre Frage ist schwer zu beantworten, da sie zwei sehr unterschiedliche Themen erwähnt: Einzigartigkeit und Stabilität .
Intuitiv ist eine Lösung eindeutig, wenn bei einem festen Datensatz der Algorithmus immer die gleichen Ergebnisse liefert. Martins Antwort-Cover behandelt diesen Punkt sehr detailliert.
Stabilität hingegen kann intuitiv als eine verstanden werden, bei der sich die Vorhersage nicht wesentlich ändert, wenn die Trainingsdaten geringfügig geändert werden.
Die Stabilität gilt für Ihre Frage, da die Auswahl der Lasso-Funktionen (häufig) über die Kreuzvalidierung erfolgt. Daher wird der Lasso-Algorithmus für verschiedene Datenfalten ausgeführt und kann jedes Mal zu unterschiedlichen Ergebnissen führen.
Stabilität und das No Free Lunch Theorem
Verwenden Sie die Definition von hier, wenn wir die einheitliche Stabilität definieren als:
dann der "No Free Lunch Satz, Xu und Caramis (2012)" besagt , dass
Beispielsweise ist die regulierte -Regression stabil und identifiziert keine redundanten Merkmale, während die regulierte L 1 -Regression (Lasso) instabil ist.L2 L1
Ein Versuch, Ihre Frage zu beantworten
Weitergehen
Dies bedeutet nicht, dass die Kombination aus Kreuzvalidierung und Lasso nicht funktioniert. Tatsächlich wurde experimentell (und mit viel unterstützender Theorie) gezeigt, dass sie unter verschiedenen Bedingungen sehr gut funktioniert. Die Hauptschlüsselwörter hier sind Konsistenz , Risiko, Orakel-Ungleichungen usw.
Die folgenden Folien und Artikel von McDonald und Homrighausen (2013) beschreiben einige Bedingungen, unter denen die Auswahl von Lasso-Merkmalen gut funktioniert: Folien und Papier: "Das Lasso, die Persistenz und die Kreuzvalidierung, McDonald und Homrighausen (2013)" . Tibshirani sich auch eine große Reihe von Notizen über entsandte sparcity , lineare Regression
Die verschiedenen Bedingungen für Konsistenz und ihre Auswirkungen auf Lasso sind ein aktives Forschungsthema und definitiv keine triviale Frage. Ich kann Sie auf einige relevante Forschungsarbeiten hinweisen:
quelle
Kommentare von Daniel J. McDonald
Assistenzprofessor an der Indiana University Bloomington, Autor der beiden in der ursprünglichen Antwort von Xavier Bourret Sicotte erwähnten Artikel .
quelle
Das Lasso hat im Gegensatz zur Ridge-Regression (siehe z. B. Hoerl und Kennard, 1970; Hastie et al., 2009) nicht immer eine eindeutige Lösung, obwohl dies normalerweise der Fall ist. Dies hängt von der Anzahl der Parameter im Modell ab, davon, ob die Variablen kontinuierlich oder diskret sind oder nicht, und vom Rang Ihrer Entwurfsmatrix. Bedingungen für die Einzigartigkeit finden sich in Tibshirani (2013).
Verweise:
Hastie, T., Tibshirani, R. und Friedman, J. (2009). Die Elemente des statistischen Lernens . Springer-Reihe in der Statistik. Springer, New York, 11. Druck, 2. Auflage.
Hoerl, AE und Kennard, RW (1970). Ridge-Regression: Verzerrte Schätzung für nichtorthogonale Probleme. Technometrics , 12 (1), 55 & ndash ; 67.
Tibshirani, RJ (2013). Das Lasso-Problem und die Einzigartigkeit. Electronic Journal of Statistics , 7, 1456-1490.
quelle
Was verursacht Nicht-Einzigartigkeit.
then there are an infinite number of combinationsci+γαi that do not change the solution Xc and the norm ∥c∥1 .
For example:
has for∥c∥1=1 the solutions:
with0≤γ≤12
We can sort of replace the vectorx2 by using x2=0.5x1+0.5x3
Situations without this condition
In the article from Tibshirani (from Phil's answer) three sufficient conditions are described for lasso to have an unique solution.
Affinely independent When the columnsXs are in general position.
That is, nok columns represent points in a k−2 dimensional plane. A
k-2 dimensional plane can be parameterized by any k−1 points as ∑αisixi with ∑αi=1 . With a k -th point sjxj in this same plane you would have the conditions ∑αisixi with ∑αi=0
Note that in the example the columnsx1 , x2 and x3 are on a single line. (It is however a bit awkward here because the signs can be negative, e.g. the matrix [[21][11][−0−1]] has just as well no unique solution)
When the columnsX are from a continuous distribution then it is unlikely (probability almost zero) that you will have columns of X not in general position.
Contrasting with this, if the columnsX are a categorical variable
then this probability is not neccesarily almost zero. The probability for a continuous
variable to be equal to some set of numbers (ie the planes
corresponding to the affine span of the other vectors) is 'almost' zero. But, this is not the case for discrete variables.
quelle