Auf Seite 223 in Eine Einführung in das statistische Lernen fassen die Autoren die Unterschiede zwischen Gratregression und Lasso zusammen. Sie liefern ein Beispiel (Abbildung 6.9) für den Fall, dass "Lasso dazu neigt, die Gratregression in Bezug auf Bias, Varianz und MSE zu übertreffen".
Ich verstehe, warum Lasso wünschenswert sein kann: Es führt zu spärlichen Lösungen, da es viele Koeffizienten auf 0 verkleinert, was zu einfachen und interpretierbaren Modellen führt. Aber ich verstehe nicht, wie es den Kamm übertreffen kann, wenn nur Vorhersagen von Interesse sind (dh wie wird im Beispiel eine wesentlich niedrigere MSE erzielt?).
Wenn bei Ridge viele Prädiktoren die Reaktion kaum beeinflussen (wobei einige Prädiktoren einen großen Effekt haben), werden ihre Koeffizienten nicht einfach auf eine kleine Zahl nahe Null geschrumpft. Dies führt zu einem ähnlichen Ergebnis wie bei Lasso ? Warum sollte das endgültige Modell eine schlechtere Leistung als Lasso haben?
quelle
Antworten:
Sie haben Recht, diese Frage zu stellen. Im Allgemeinen übertrifft die Ridge-Regression das Lasso, wenn eine Bewertungsregel für die richtige Genauigkeit verwendet wird (z. B. der mittlere quadratische Vorhersagefehler). Lasso verwendet einige Informationen, um die "richtigen" Prädiktoren zu finden, und das ist in vielen Fällen nicht einmal toll. Die relative Leistung der beiden hängt von der Verteilung der wahren Regressionskoeffizienten ab. Wenn Sie in Wahrheit einen kleinen Bruchteil von Koeffizienten ungleich Null haben, kann Lasso eine bessere Leistung erbringen. Persönlich benutze ich Ridge fast immer, wenn ich an Vorhersagegenauigkeit interessiert bin.
quelle
Ich denke, die spezifische Konfiguration des Beispiels, auf das Sie verweisen, ist der Schlüssel zum Verständnis, warum Lasso besser abschneidet als Ridge: Nur 2 von 45 Prädiktoren sind tatsächlich relevant.
Dies grenzt an einen pathologischen Fall: Lasso, das speziell dazu gedacht ist, die Reduktion auf Null zu vereinfachen, funktioniert genau so, wie es beabsichtigt ist, während der Kamm mit einer großen Anzahl von nutzlosen Begriffen umgehen muss (selbst wenn seine Wirkung auf Null reduziert wird, ist es immer noch eine Nicht-Null-Effekt).
quelle