Was führt dazu, dass Lasso bei der Funktionsauswahl instabil ist?

12

Bei der komprimierten Abtastung gibt es einen Satz, der garantiert, dass

argminc1subject to y=Xc
hat eine eindeutige, spärliche Lösungc (siehe Anhang für weitere Details).

Gibt es einen ähnlichen Satz für Lasso? Wenn es einen solchen Satz gibt, garantiert er nicht nur die Stabilität des Lassos, sondern bietet dem Lasso auch eine aussagekräftigere Interpretation:

Lasso kann den spärlichen Regressionskoeffizientenvektor aufdecken, der cverwendet wird, um die Antwort y durch zu erzeugen .y=Xc

Es gibt zwei Gründe, warum ich diese Frage stelle:

  1. Ich denke, "Lasso bevorzugt eine spärliche Lösung" ist keine Antwort darauf, warum Lasso für die Funktionsauswahl verwendet wird, da wir nicht einmal sagen können, welchen Vorteil die von uns ausgewählten Funktionen haben.

  2. Ich habe gelernt, dass Lasso dafür berüchtigt ist, bei der Auswahl von Features instabil zu sein. In der Praxis müssen wir Bootstrap-Beispiele ausführen, um die Stabilität zu bewerten. Was ist der wichtigste Grund für diese Instabilität?


Blinddarm:

Gegeben ist XN×M=(x1,,xM) . c ist ein Ω sparsamer Vektor ( ΩM ). Der Prozess erzeugt die Antwort . Wenn den NSP (Nullraum-Eigenschaft) der Ordnung und die Kovarianzmatrix von keinen Eigenwert nahe Null hat, gibt es eine eindeutige Lösung für was genau das , das ergibty=XcyXΩX

argminc1subject to y=Xc
cy.

Was dieser Satz auch sagt, ist auch, wenn nicht den NSP der Ordnung , ist es einfach hoffnungslos, .Ω argmin c : y = X cc 1XΩargminc:y=Xcc1


BEARBEITEN:

Nachdem ich diese großartigen Antworten erhalten hatte, stellte ich fest, dass ich verwirrt war, als ich diese Frage stellte.

Warum diese Frage verwirrend ist:

Ich habe eine Forschungsarbeit gelesen , in der wir entscheiden müssen, wie viele Merkmale (Spalten) die Entwurfsmatrix XN×M haben wird (Hilfsmerkmale werden aus primären Merkmalen erstellt). Da es sich um ein typisches n<p Problem handelt, wird erwartet, dass D gut konstruiert ist, so dass die Lösung für Lasso eine gute Annäherung an die real spärliche Lösung sein kann.

Die Argumentation ergibt sich aus dem Satz, den ich im Anhang erwähnt habe: Wenn wir eine sparsame Lösung c finden wollen , hat X besser den NSP der Ordnung Ω .ΩcXΩ

Wenn für eine allgemeine Matrix N > C Ω ln M verletzt wird, dannN×MN>CΩlnM

Eine stabile und robuste Gewinnung von aus D und P ist nicht möglichcDP

entspricht X , P entspricht yDXPy

... wie aus der Beziehung erwartet , wird die Auswahl des Deskriptors instabiler, dh für verschiedene Trainingssätze unterscheidet sich der ausgewählte Deskriptor häufig ...N=CΩlnM

Das zweite Zitat ist der Teil, der mich verwirrt. Es scheint mir, wenn die Ungleichung verletzt wird, ist es nicht nur die Lösung, die möglicherweise nicht eindeutig ist (nicht erwähnt), sondern der Deskriptor wird auch instabiler.

meTchaikovsky
quelle
2
Nur für den Kontext wird das Optimierungsproblem, das Sie zu Beginn Ihres Q aufschreiben, als "Basisverfolgung" bezeichnet. Wenn Sie die Gleichheit durch die ungefähre Gleichheit y X c ersetzen (bis zu einem gewissen L2-Fehler), wird dies als "Basisverfolgungsentrauschung" bezeichnet. Das Entrauschen der Basisverfolgung ist mathematisch äquivalent zu Lasso. y=XcyXc
Amöbe sagt Reinstate Monica
Eine nützliche Reihe von Folien (aber keine einfache) finden Sie hier: pages.iu.edu/~dajmcdon/research/talks/lasso.pdf und das No-Free-Lunch-Theorem users.ece.utexas.edu/~cmcaram/pubs/ XuCaramanisMannor.NFL.pdf
Xavier Bourret Sicotte
Der Satz, den Sie zitieren, handelt von der Einzigartigkeit. Ihre Frage ist verwirrend, da Einzigartigkeit nicht unbedingt mit Stabilität zusammenhängt.
Amöbe sagt Reinstate Monica
2
Ja, ich glaube, das OP ist etwas verwirrt und die Frage nicht klar, daher die unterschiedlichen möglichen Antworten ... Die Eindeutigkeit gilt für einen einzelnen Satz von Datenpunkten, die Stabilität gilt für die Kreuzvalidierung oder den Bootstrap oder neue Datenpunkte
Xavier Bourret Sicotte

Antworten:

7

AKTUALISIEREN

In diesem zweiten Beitrag finden Sie McDonalds Feedback zu meiner Antwort, in der der Begriff der Risikokonsistenz mit der Stabilität zusammenhängt.


1) Einzigartigkeit gegen Stabilität

Ihre Frage ist schwer zu beantworten, da sie zwei sehr unterschiedliche Themen erwähnt: Einzigartigkeit und Stabilität .

  • Intuitiv ist eine Lösung eindeutig, wenn bei einem festen Datensatz der Algorithmus immer die gleichen Ergebnisse liefert. Martins Antwort-Cover behandelt diesen Punkt sehr detailliert.

  • Stabilität hingegen kann intuitiv als eine verstanden werden, bei der sich die Vorhersage nicht wesentlich ändert, wenn die Trainingsdaten geringfügig geändert werden.

Die Stabilität gilt für Ihre Frage, da die Auswahl der Lasso-Funktionen (häufig) über die Kreuzvalidierung erfolgt. Daher wird der Lasso-Algorithmus für verschiedene Datenfalten ausgeführt und kann jedes Mal zu unterschiedlichen Ergebnissen führen.

Stabilität und das No Free Lunch Theorem

Verwenden Sie die Definition von hier, wenn wir die einheitliche Stabilität definieren als:

Ein Algorithmus hat eine gleichmäßige Stabilität in Bezug auf die Verlustfunktion V, wenn Folgendes gilt:βV

SZm  i{1,...,m},  sup|>V(fs,z)V(fS|i,z)|  β

Als Funktion von , kann der Term β als β m geschrieben werden . Wir sagen, der Algorithmus ist stabil, wenn β m als 1 abnimmt mββmβm .1m

dann der "No Free Lunch Satz, Xu und Caramis (2012)" besagt , dass

Wenn ein Algorithmus in dem Sinne spärlich ist , dass er redundante Merkmale identifiziert, ist dieser Algorithmus nicht stabil (und die einheitliche Stabilitätsgrenze geht nicht auf Null). [...] Wenn ein Algorithmus stabil ist, besteht keine Hoffnung, dass er spärlich ist. (Seiten 3 und 4)β

Beispielsweise ist die regulierte -Regression stabil und identifiziert keine redundanten Merkmale, während die regulierte L 1 -Regression (Lasso) instabil ist. L2L1

Ein Versuch, Ihre Frage zu beantworten

Ich denke, "Lasso bevorzugt eine spärliche Lösung" ist keine Antwort darauf, warum Lasso für die Funktionsauswahl verwendet wird

  • Ich bin anderer Meinung, der Grund, warum Lasso für die Merkmalsauswahl verwendet wird, ist, dass es eine spärliche Lösung ergibt und gezeigt werden kann, dass es die IRF-Eigenschaft hat, dh redundante Merkmale identifiziert.

Was ist der wichtigste Grund für diese Instabilität?

  • Das No Free Lunch Theorem

Weitergehen

Dies bedeutet nicht, dass die Kombination aus Kreuzvalidierung und Lasso nicht funktioniert. Tatsächlich wurde experimentell (und mit viel unterstützender Theorie) gezeigt, dass sie unter verschiedenen Bedingungen sehr gut funktioniert. Die Hauptschlüsselwörter hier sind Konsistenz , Risiko, Orakel-Ungleichungen usw.

Die folgenden Folien und Artikel von McDonald und Homrighausen (2013) beschreiben einige Bedingungen, unter denen die Auswahl von Lasso-Merkmalen gut funktioniert: Folien und Papier: "Das Lasso, die Persistenz und die Kreuzvalidierung, McDonald und Homrighausen (2013)" . Tibshirani sich auch eine große Reihe von Notizen über entsandte sparcity , lineare Regression

Die verschiedenen Bedingungen für Konsistenz und ihre Auswirkungen auf Lasso sind ein aktives Forschungsthema und definitiv keine triviale Frage. Ich kann Sie auf einige relevante Forschungsarbeiten hinweisen:

Xavier Bourret Sicotte
quelle
1
Vielen Dank für Ihre umfassende Antwort! Die von Ihnen bereitgestellten Folien sind einfach hervorragend!
meTchaikovsky
1
Ich versuche immer noch, diese Definition von Stabilität zu verarbeiten. Meine Übersetzung lautet: "Ein Algorithmus ist stabil, wenn die Änderung der Fehler- / Verlustfunktion bei der Auslassung einer Kreuzvalidierung eine Obergrenze , die mit 1 abnimmtβ "Wenn wir die Anzahl der Falten / Testsätze erhöhen"1m, hoffe ich, dass ich das richtig verstanden habe. Ich frage mich, warum es eine wünschenswerte Eigenschaft ist, damit Lasso gut funktioniert (oder genauer gesagt, ob es eine notwendige Eigenschaft ist).
Sextus Empiricus
1
Ja, außer m ist die Anzahl der Datenpunkte. Auf Seite 7 finden Sie eine Wahrscheinlichkeitsgrenze: math.arizona.edu/~hzhang/math574m/Read/LOOtheory.pdf - Der Punkt ist, dass durch Erhöhen der Datensatzgröße keine Grenze für die Stabilität besteht, was bedeutet, dass der Algorithmus springen kann zu weit entfernte Hypothesenfunktionen in Abhängigkeit von einem bestimmten Datensatz. Aus diesem Grund werden alternative Bedingungen vorgeschlagen, die sich auf die zugrunde liegende Verteilungs- und Korrelationsstruktur beziehen (glaube ich) - aber Hilfe benötigen, um diese klarer zu machen
Xavier Bourret Sicotte
Ein weiterer wichtiger Begriff ist der der Konsistenz, wie hier beispielsweise erläutert: stat.ethz.ch/~nicolai/stability.pdf - Wie Stabilität und Konsistenz miteinander verbunden sind, ist unklar, scheint jedoch Gegenstand aktiver Forschung zu sein, z. B. cbcl.mit.edu/publications /ps/mukherjee-AImemoOctNov.pdf
Xavier Bourret Sicotte
Gute Antwort! Könnten Sie auch einige Links mit detaillierteren Beschreibungen aktualisieren, falls die Links selbst in Zukunft nicht mehr funktionieren? (Ich habe schon einen für dich gemacht.)
Richard Hardy
7

Kommentare von Daniel J. McDonald

Assistenzprofessor an der Indiana University Bloomington, Autor der beiden in der ursprünglichen Antwort von Xavier Bourret Sicotte erwähnten Artikel .

Ihre Erklärung ist im Allgemeinen ganz richtig. Ein paar Dinge, auf die ich hinweisen möchte:

  1. Unser Ziel in der Reihe von Artikeln über CV und Lasso war es zu beweisen, dass "Lasso + Cross Validation (CV)" genauso gut funktioniert wie "Lasso + optimales "λ . Insbesondere wollten wir zeigen, dass die Vorhersagen auch funktionieren (modellfrei). Um Aussagen über die korrekte Wiederherstellung von Koeffizienten zu treffen (die richtigen nicht spärlichen zu finden), muss man eine spärliche Wahrheit annehmen, was wir nicht wollten.

  2. Algorithmische Stabilität impliziert Risikokonsistenz (zuerst von Bousquet und Elisseeff bewiesen, glaube ich). Mit Risikokonsistenz meine ich, dass die geht auf Null, wobei f entweder E [ Y | ist X ] oder der beste Prädiktor innerhalb einer Klasse, wenn die Klasse falsch angegeben ist. Dies ist jedoch nur eine ausreichende Bedingung. Es wird auf den Folien, auf die Sie verlinkt haben, im Wesentlichen als „mögliche Proof-Technik, die nicht funktioniert, da Lasso nicht stabil ist“ erwähnt.||f^(X)f(X)||E[Y|X]

  3. λp>n

  4. YXi

Xavier Bourret Sicotte
quelle
5

Das Lasso hat im Gegensatz zur Ridge-Regression (siehe z. B. Hoerl und Kennard, 1970; Hastie et al., 2009) nicht immer eine eindeutige Lösung, obwohl dies normalerweise der Fall ist. Dies hängt von der Anzahl der Parameter im Modell ab, davon, ob die Variablen kontinuierlich oder diskret sind oder nicht, und vom Rang Ihrer Entwurfsmatrix. Bedingungen für die Einzigartigkeit finden sich in Tibshirani (2013).

Verweise:

Hastie, T., Tibshirani, R. und Friedman, J. (2009). Die Elemente des statistischen Lernens . Springer-Reihe in der Statistik. Springer, New York, 11. Druck, 2. Auflage.

Hoerl, AE und Kennard, RW (1970). Ridge-Regression: Verzerrte Schätzung für nichtorthogonale Probleme. Technometrics , 12 (1), 55 & ndash ; 67.

Tibshirani, RJ (2013). Das Lasso-Problem und die Einzigartigkeit. Electronic Journal of Statistics , 7, 1456-1490.

Phil
quelle
@ Vielen Dank! Können Sie eine kurze Zusammenfassung der von Ihnen angegebenen Referenzen hinzufügen?
meTchaikovsky
Hasite et al. (2009) ist ein Buch, das viele Themen behandelt, darunter die Regression von Lasso und Ridge. Es ist eine Lektüre wert und kann von Hasties Homepage heruntergeladen werden: web.stanford.edu/~hastie/ElemStatLearn/download.html Hoerl & Kennard (1970) ist eine klassische Ridge-Regressionsreferenz und wahrscheinlich nicht so relevant für Ihre Frage, andere als über Ridge Regression zu lesen. Tibshirani (2013) enthält Informationen darüber, wann das Lasso eine einzigartige Lösung hat (und wann es unendlich viele Lösungen hat).
Phil
3

Was verursacht Nicht-Einzigartigkeit.

sixisicic1

αisixi=0andαi=0

then there are an infinite number of combinations ci+γαi that do not change the solution Xc and the norm c1.

For example:

y=[11]=[210111][c1c2c3]=Xc

has for c1=1 the solutions:

[c1c2c3]=[010]+γ[121]

with 0γ12

We can sort of replace the vector x2 by using x2=0.5x1+0.5x3


Situations without this condition

In the article from Tibshirani (from Phil's answer) three sufficient conditions are described for lasso to have an unique solution.

  1. Linearly independent When the null space X is null or equivalently when the rank of X is equal to the number of columns (M). In that case you do not have linear combinations like above.
  2. Affinely independent When the columns Xs are in general position.

    That is, no k columns represent points in a k2 dimensional plane. A k-2 dimensional plane can be parameterized by any k1 points as αisixi with αi=1. With a k-th point sjxj in this same plane you would have the conditions αisixi with αi=0

    Note that in the example the columns x1, x2 and x3 are on a single line. (It is however a bit awkward here because the signs can be negative, e.g. the matrix [[21][11][01]] has just as well no unique solution)

  3. When the columns X are from a continuous distribution then it is unlikely (probability almost zero) that you will have columns of X not in general position.

    Contrasting with this, if the columns X are a categorical variable then this probability is not neccesarily almost zero. The probability for a continuous variable to be equal to some set of numbers (ie the planes corresponding to the affine span of the other vectors) is 'almost' zero. But, this is not the case for discrete variables.

Sextus Empiricus
quelle
+1 but i think that what is meant by unstable in recent discussions is related to feature selection via cross validation in presence of correlated features
Xavier Bourret Sicotte
@XavierBourretSicotte do you mean that even when there is a unique solution the selection process can be unstable due to correlated features adding troubles to (numerically) finding that unique solution? It is a bit confusing because the question asks on the one hand about stability and on the other hand about uniqueness.
Sextus Empiricus
Yes that is what I mean, not necessarily because of numerical instability but because of inherent differences in the folds of the data (during CV) which lead to different solutions for different λ values across the folds. In could be even worse when bootstrapping
Xavier Bourret Sicotte
@XavierBourretSicotte I have currently no clear intuitive picture why this (different solutions for different λ and training sets) is supposed to be unstable. I guess you could post this as an answer and explain it.
Sextus Empiricus
@Martijn Weterings Thank you! I still have three questions: 1. how do I detect affinely dependency? Should I find out whether {v1v0,v2v0,,vkv0} are independent (math.stackexchange.com/q/82189)? 2. how should I determine si in practice? 3. what does it mean of a 'general position' of X?
meTchaikovsky