Nach meinem Wissen behandelt die Verwendung von Lasso für die Variablenauswahl das Problem der korrelierten Eingaben. Da es der Regression des kleinsten Winkels entspricht, ist es auch rechnerisch nicht langsam. Viele Leute (zum Beispiel Leute, von denen ich weiß, dass sie Biostatistiken machen) scheinen jedoch eine schrittweise oder stufenweise variable Auswahl zu bevorzugen. Gibt es praktische Nachteile bei der Verwendung des Lassos, die es ungünstig machen?
regression
feature-selection
lasso
xuexue
quelle
quelle
Antworten:
Es gibt KEINEN Grund, schrittweise zu selektieren. Es ist einfach falsch.
LASSO / LAR sind die besten automatischen Methoden. Aber es sind automatische Methoden. Sie lassen den Analytiker nicht nachdenken.
In vielen Analysen sollten einige Variablen UNABHÄNGIG von jeglichem Maß an Signifikanz im Modell sein. Manchmal sind sie notwendige Kontrollvariablen. In anderen Fällen kann es von wesentlicher Bedeutung sein, einen kleinen Effekt zu finden.
quelle
Wenn Sie sich nur um Vorhersagefehler und nicht um Interpretierbarkeit, zufällige Inferenz, Einfachheit des Modells, Koeffiziententests usw. kümmern, warum möchten Sie dann immer noch ein lineares Regressionsmodell verwenden?
Sie können so etwas wie Boosten in Entscheidungsbäumen oder Unterstützen der Vektorregression verwenden, um eine bessere Vorhersagequalität zu erzielen und dennoch eine Überanpassung in beiden genannten Fällen zu vermeiden. Das heißt, Lasso ist möglicherweise nicht die beste Wahl, um die beste Vorhersagequalität zu erzielen.
Wenn ich das richtig verstehe, ist Lasso für Situationen gedacht, in denen Sie sich immer noch für das Modell selbst interessieren, nicht nur für Vorhersagen. Das heißt - ausgewählte Variablen und ihre Koeffizienten sehen, auf irgendeine Weise interpretieren usw. Und dafür ist Lasso in bestimmten Situationen möglicherweise nicht die beste Wahl, wie in anderen Fragen hier erörtert.
quelle
LASSO empfiehlt, die Koeffizienten auf 0 zu verkleinern, dh diese Variablen aus Ihrem Modell zu entfernen. Im Gegensatz dazu neigen andere Regularisierungstechniken wie ein Grat dazu, alle Variationen beizubehalten.
Daher würde ich empfehlen, darüber nachzudenken, ob dieses Löschen für Ihre Daten sinnvoll ist. Erwägen Sie beispielsweise die Einrichtung eines klinischen Diagnosetests entweder für Gen-Microarray-Daten oder für vibrationsspektroskopische Daten.
Man würde erwarten, dass einige Gene relevante Informationen enthalten, aber viele andere Gene sind nur Rauschen. Ihre Bewerbung. Das Löschen dieser Variablen ist eine durchaus vernünftige Idee.
Im Gegensatz dazu tendieren schwingungsspektroskopische Datensätze (während sie im Vergleich zu Microarray-Daten normalerweise ähnliche Abmessungen aufweisen) dazu, die relevanten Informationen über große Teile des Spektrums "zu verschmieren" (Korrelation). In dieser Situation ist es nicht besonders sinnvoll, die Regularisierung aufzufordern, Variationen fallen zu lassen. Dies gilt umso mehr, als andere Regularisierungstechniken wie PLS besser an diese Art von Daten angepasst sind.
Die Elemente des statistischen Lernens bieten eine gute Diskussion über das LASSO und stellen es anderen Regularisierungstechniken gegenüber.
quelle
Wenn zwei Prädiktoren stark korreliert sind, kann LASSO am Ende einen eher willkürlich fallen lassen. Dies ist nicht sehr gut, wenn Sie Vorhersagen für eine Population treffen möchten, bei der diese beiden Prädiktoren nicht stark korreliert sind, und möglicherweise ein Grund, unter diesen Umständen die Kammregression zu bevorzugen.
Sie könnten auch denken, dass die Standardisierung von Prädiktoren (zum Beispiel wenn Koeffizienten "groß" oder "klein" sind) eher willkürlich ist und Sie sollten (wie ich) über sinnvolle Wege nachdenken, kategoriale Prädiktoren zu standardisieren.
quelle
Lasso ist nur dann nützlich, wenn Sie sich darauf beschränken, Modelle zu berücksichtigen, deren zu schätzende Parameter linear sind. Anders ausgedrückt, das Lasso bewertet nicht, ob Sie die richtige Form der Beziehung zwischen der unabhängigen und der abhängigen Variablen gewählt haben.
Es ist sehr plausibel, dass es in einem beliebigen Datensatz nichtlineare, interaktive oder polynomielle Effekte geben kann. Diese alternativen Modellspezifikationen werden jedoch nur bewertet, wenn der Benutzer diese Analyse durchführt. Das Lasso ist kein Ersatz dafür.
Betrachten Sie als einfaches Beispiel, wie dies schief gehen kann, einen Datensatz, in dem disjunkte Intervalle der unabhängigen Variablen abwechselnd hohe und niedrige Werte der abhängigen Variablen vorhersagen. Die Sortierung mit herkömmlichen linearen Modellen ist schwierig, da die für die Analyse vorhandenen Manifestvariablen keinen linearen Effekt haben (eine gewisse Transformation der Manifestvariablen kann jedoch hilfreich sein). In seiner offensichtlichen Form belassen, wird das Lasso fälschlicherweise zu dem Schluss kommen, dass dieses Merkmal irrelevant ist, und seinen Koeffizienten auf Null setzen, da es keine lineare Beziehung gibt. Auf der anderen Seite ist ein baumbasiertes Modell wie ein zufälliger Wald wahrscheinlich ziemlich gut geeignet, da die Daten achsenausgerichtete Teilungen enthalten.
quelle
Ein praktischer Nachteil von Lasso und anderen Regularisierungstechniken besteht darin, den optimalen Regularisierungskoeffizienten Lambda zu finden. Die Verwendung der Kreuzvalidierung zum Ermitteln dieses Werts kann genauso kostspielig sein wie schrittweise Auswahltechniken.
quelle
Ich bin kein LASSO-Experte, aber ein Experte für Zeitreihen. Wenn Sie Zeitreihendaten oder räumliche Daten haben, würde ich sorgfältig eine Lösung vermeiden, die auf unabhängigen Beobachtungen beruht. Darüber hinaus wäre LASSO noch weniger ein guter Hammer, wenn es unbekannte deterministische Effekte gibt, die Ihre Daten in Mitleidenschaft gezogen haben (Pegelverschiebungen / Zeittrends usw.). Zum Schluss, wenn Sie Zeitreihendaten haben, müssen Sie die Daten häufig segmentieren, wenn Sie mit sich über die Zeit ändernden Parametern oder Fehlervarianzen konfrontiert sind.
quelle
Dies ist bereits eine ziemlich alte Frage, aber ich bin der Meinung, dass die meisten Antworten in der Zwischenzeit ziemlich veraltet sind (und die, die als die richtige Antwort überprüft wurde, ist einfach falsch, imho).
Erstens ist es im Hinblick auf eine gute Prognoseleistung nicht allgemein gültig, dass LASSO immer besser als schrittweise ist. Das Papier "Erweiterte Vergleiche der besten Teilmengenauswahl, schrittweisen Vorwärtsauswahl und des Lassos" von Hastie et al. (2017) bietet einen umfassenden Vergleich von schrittweisen Vorwärts-, LASSO- und einigen LASSO-Varianten wie dem entspannten LASSO sowie der besten Teilmenge und diesen zeigen, dass schrittweise manchmal besser ist als LASSO. Eine Variante von LASSO - Relaxed LASSO - war jedoch diejenige, die unter den verschiedensten Umständen die höchste Modellvorhersagegenauigkeit erzielte. Die Entscheidung, welche Variable die beste ist, hängt jedoch stark davon ab, was Sie für die beste halten, z.
Es gibt jedoch einen ganzen Zoo spärlicher Lernmethoden, von denen die meisten besser sind als LASSO. Zum Beispiel gibt es Meinhausens entspannte LASSO , adaptive LASSO- und SCAD- und MCP-bestrafte Regression, wie im
ncvreg
Paket implementiert , die alle weniger voreingenommen sind als Standard-LASSO und daher bevorzugt werden. Wenn Sie außerdem an der absolut dünnsten Lösung mit der besten Vorhersage-Performance interessiert sind, wird die Regression mit L0 bestraft (auch als beste Teilmenge bezeichnet, dh basierend auf der Bestrafung des nr von Koeffizienten ungleich Null im Gegensatz zur Summe des Absolutwerts der Koeffizienten in LASSO). ist besser als LASSO, siehe z. B. dasl0ara
Paket, das mit einem iterativen adaptiven Ridge-Verfahren bestrafte L0-GLMs approximiert, und das im Gegensatz zu LASSO auch sehr gut mit hochkollinearen Variablen funktioniert, und dasL0Learn
Paket Koordinatenabstieg anpassen kann , möglicherweise in Kombination mit einer L2-Strafe, um die Kollinearität zu regulieren., die mit L0 bestraften Regressionsmodellen passenKommen wir also zu Ihrer ursprünglichen Frage zurück: Warum nicht LASSO für die Variablenauswahl verwenden? :
(1) weil die Koeffizienten stark verzerrt sind, was bei einer entspannten, bestraften LASSO-, MCP- und SCAD-Regression verbessert und bei einer bestraften L0-Regression (die eine vollständige Orakeleigenschaft aufweist, dh, sie kann sowohl die kausalen Variablen als auch die Wiederholung herausfinden unverzerrte Koeffizienten, auch für p> n Fälle)
(2) weil es dazu neigt, viel mehr falsch-positive Ergebnisse zu produzieren als die bestrafte L0-Regression (in meinen Tests ist dies
l0ara
die beste Leistung, dh iterativer adaptiver Kamm, gefolgt vonL0Learn
)(3) weil es nicht gut mit kollinearen Variablen umgehen kann (es würde im Wesentlichen nur zufällig eine der kollinearen Variablen auswählen) - iterativer adapativer Kamm /
l0ara
und die L0L2-StrafenL0Learn
sind viel besser darin, damit umzugehen.Natürlich müssen Sie im Allgemeinen immer noch die Kreuzvalidierung verwenden, um Ihre Regularisierungsparameter zu optimieren, um eine optimale Vorhersageleistung zu erzielen, aber das ist kein Problem. Sie können sogar hochdimensionale Inferenzen für Ihre Parameter durchführen und 95% -Konfidenzintervalle für Ihre Koeffizienten berechnen, wenn Sie dies über nichtparametrisches Bootstrapping möchten (auch unter Berücksichtigung der Unsicherheit bei der Auswahl der optimalen Regularisierung, wenn Sie Ihre Kreuzvalidierung auch für jeden Bootstrap-Datensatz durchführen) , obwohl das dann ziemlich langsam wird).
Rechnerisch ist LASSO übrigens nicht langsamer als schrittweise Ansätze, sicherlich nicht, wenn man hochoptimierten Code verwendet, der Warmstarts verwendet, um die LASSO-Regularisierung zu optimieren (Sie können sich selbst mit dem
fs
Befehl für schrittweise Weiterleitung undlasso
für LASSO imbestsubset
Paket vergleichen). Die Tatsache, dass schrittweise Ansätze immer noch populär sind, hat wahrscheinlich mit der falschen Überzeugung vieler zu tun, dass man dann einfach das endgültige Modell behalten und die zugehörigen p-Werte angeben könnte - was in der Tat nicht richtig ist, da dies nicht der Fall ist Berücksichtigen Sie die Unsicherheit, die durch Ihre Modellauswahl entsteht und zu optimistischen p-Werten führt.Hoffe das hilft?
quelle
Ein großes Problem ist die Schwierigkeit, Hypothesentests durchzuführen. Sie können mit Lasso nicht leicht herausfinden, welche Variablen statistisch signifikant sind. Mit schrittweiser Regression können Sie Hypothesentests bis zu einem gewissen Grad durchführen, wenn Sie bei der Behandlung von Mehrfachtests vorsichtig sind.
quelle