Wenn nur die Vorhersage von Interesse ist, warum sollte man dann Lasso über dem Kamm verwenden?

36

Auf Seite 223 in Eine Einführung in das statistische Lernen fassen die Autoren die Unterschiede zwischen Gratregression und Lasso zusammen. Sie liefern ein Beispiel (Abbildung 6.9) für den Fall, dass "Lasso dazu neigt, die Gratregression in Bezug auf Bias, Varianz und MSE zu übertreffen".

Ich verstehe, warum Lasso wünschenswert sein kann: Es führt zu spärlichen Lösungen, da es viele Koeffizienten auf 0 verkleinert, was zu einfachen und interpretierbaren Modellen führt. Aber ich verstehe nicht, wie es den Kamm übertreffen kann, wenn nur Vorhersagen von Interesse sind (dh wie wird im Beispiel eine wesentlich niedrigere MSE erzielt?).

Wenn bei Ridge viele Prädiktoren die Reaktion kaum beeinflussen (wobei einige Prädiktoren einen großen Effekt haben), werden ihre Koeffizienten nicht einfach auf eine kleine Zahl nahe Null geschrumpft. Dies führt zu einem ähnlichen Ergebnis wie bei Lasso ? Warum sollte das endgültige Modell eine schlechtere Leistung als Lasso haben?

Oliver Angelil
quelle
2
Ich habe diesen Link gesehen. Es beantwortet die Frage nicht.
Oliver Angelil

Antworten:

34

Sie haben Recht, diese Frage zu stellen. Im Allgemeinen übertrifft die Ridge-Regression das Lasso, wenn eine Bewertungsregel für die richtige Genauigkeit verwendet wird (z. B. der mittlere quadratische Vorhersagefehler). Lasso verwendet einige Informationen, um die "richtigen" Prädiktoren zu finden, und das ist in vielen Fällen nicht einmal toll. Die relative Leistung der beiden hängt von der Verteilung der wahren Regressionskoeffizienten ab. Wenn Sie in Wahrheit einen kleinen Bruchteil von Koeffizienten ungleich Null haben, kann Lasso eine bessere Leistung erbringen. Persönlich benutze ich Ridge fast immer, wenn ich an Vorhersagegenauigkeit interessiert bin.

Frank Harrell
quelle
1
Gibt es Fälle, in denen Sie nicht an Vorhersagegenauigkeit interessiert sind?
Walross the Cat
1
@WalrustheCat Einige Leute, die normalerweise aus Stanford stammen, plädieren für die Verwendung von Lasso bei der Auswahl hochdimensionaler Variablen. Vermutlich meinte Frank "... in erster Linie an Vorhersagegenauigkeit interessiert" und nicht einfach "... an Vorhersagegenauigkeit interessiert", obwohl der Unterschied zwischen diesen beiden meiner Meinung nach zwei pedantische ist, um nützlich zu sein.
John Madden
Ich habe den Ansatz "Regularisierung als Dimensionsreduktion" nie verstanden. Sie können die Dimensionalität reduzieren, entweder durch Lasso-Regularisierung oder nicht, und dann die beste Regularisierungsfunktion für Ihr ursprüngliches Problem für die resultierenden Features verwenden. Aber ich schweife ab.
Walross the Cat
8
Aus "Im Allgemeinen wird die Gratregression das Lasso übertreffen" und "Wenn Sie in Wahrheit einen kleinen Bruchteil von Koeffizienten ungleich Null haben, kann das Lasso eine bessere Leistung erbringen" scheint zu folgen, dass bei den meisten Vorhersageproblemen die Grundwahrheit nicht spärlich ist. Ist es das was du sagst?
Amöbe sagt Reinstate Monica
4
Ja hauptsächlich. Wenn Sie die Grundwahrheit "in Verteilung" kennen, würden Sie eine Bayes'sche Vorverteilung für die unbekannten Regressionskoeffizienten erstellen, mit der Sie optimale Ergebnisse erzielen würden. Und selbst wenn zum Beispiel 3/4 der Prädiktoren genau keine Wirkung haben, ist der Kamm mit dem Lasso konkurrierend.
Frank Harrell
10

Ich denke, die spezifische Konfiguration des Beispiels, auf das Sie verweisen, ist der Schlüssel zum Verständnis, warum Lasso besser abschneidet als Ridge: Nur 2 von 45 Prädiktoren sind tatsächlich relevant.

Dies grenzt an einen pathologischen Fall: Lasso, das speziell dazu gedacht ist, die Reduktion auf Null zu vereinfachen, funktioniert genau so, wie es beabsichtigt ist, während der Kamm mit einer großen Anzahl von nutzlosen Begriffen umgehen muss (selbst wenn seine Wirkung auf Null reduziert wird, ist es immer noch eine Nicht-Null-Effekt).

mbrig
quelle