Wann wird die Ridge-Regression und die Lasso-Regression verwendet? Was kann erreicht werden, wenn diese Techniken anstelle des linearen Regressionsmodells verwendet werden?

8

Ich freue mich darauf, mehr über die regulierten Regressionstechniken wie Ridge- und Lasso-Regression zu erfahren. Ich würde gerne wissen, was mit diesen Techniken im Vergleich zum linearen Regressionsmodell erreicht werden kann. Auch in welcher Situation sollten wir diese Techniken anwenden. Und was unterscheidet diese beiden Techniken? Ich möchte das Konzept und die Mathematik hinter diesen Techniken verstehen. Ich möchte Sie bitten, Ihr wertvolles Wissen weiterzugeben.

StatsUser
quelle
Die entsprechenden Kapitel in diesem führenden (und frei herunterladbaren) Lehrbuch bieten gute Einblicke: www-bcf.usc.edu/~gareth/ISL
Christoph Hanck

Antworten:

10

Kurz gesagt, Ridge Regression und Lasso sind Regressionstechniken, die eher für die Vorhersage als für die Inferenz optimiert sind.

Die normale Regression liefert unvoreingenommene Regressionskoeffizienten (Schätzungen der maximalen Wahrscheinlichkeit "wie im Datensatz beobachtet").

Mit der Ridge- und Lasso-Regression können Sie die Koeffizienten regulieren ("verkleinern"). Dies bedeutet, dass die geschätzten Koeffizienten in Richtung 0 verschoben werden, damit sie bei neuen Datensätzen besser funktionieren ("für die Vorhersage optimiert"). Auf diese Weise können Sie komplexe Modelle verwenden und gleichzeitig eine Überanpassung vermeiden.

Sowohl für Ridge als auch für Lasso müssen Sie einen sogenannten "Meta-Parameter" festlegen, der definiert, wie aggressive Regularisierung durchgeführt wird. Metaparameter werden normalerweise durch Kreuzvalidierung ausgewählt. Für die Ridge-Regression wird der Metaparameter häufig als "Alpha" oder "L2" bezeichnet. es definiert einfach die Regularisierungsstärke. Für LASSO wird der Metaparameter oft als "Lambda" oder "L1" bezeichnet. Im Gegensatz zu Ridge setzt die LASSO-Regularisierung weniger wichtige Prädiktoren auf 0 und hilft Ihnen bei der Auswahl der Prädiktoren, die im Modell nicht berücksichtigt werden können. Die beiden Methoden werden in der Regularisierung "Elastic Net" kombiniert. Hier können beide Parameter eingestellt werden, wobei "L2" die Regularisierungsstärke und "L1" die gewünschte Spärlichkeit der Ergebnisse definiert.

Hier finden Sie eine nette Einführung in das Thema: http://scikit-learn.org/stable/modules/linear_model.html

mzunhammer
quelle
1
Können Sie weitere Details zu den 2 von LASSO verwendeten Metaparametern angeben? Ich habe mich
umgesehen
Vielen Dank, dass Sie mich auf diesen Punkt aufmerksam gemacht haben. Ich habe zuvor "LASSO" mit dem allgemeineren "Elastic Net" verwechselt. Siehe Korrektur oben.
Mzunhammer
1

Obwohl das lineare Modell für die zur Erstellung des Modells angegebenen Daten optimal sein kann, ist nicht unbedingt garantiert, dass es das beste Modell für Vorhersagen auf unsichtbaren Daten ist

Wenn unsere zugrunde liegenden Daten einem relativ einfachen Modell folgen und das von uns verwendete Modell für die Aufgabe zu komplex ist, legen wir im Wesentlichen zu viel Gewicht auf mögliche Änderungen oder Abweichungen in den Daten. Unser Modell reagiert überkompensiert und kompensiert selbst die geringste Änderung unserer Daten. Menschen im Bereich Statistik und maschinelles Lernen nennen dieses Phänomen Überanpassung. Wenn Ihr Datensatz Features enthält, die stark linear mit anderen Features korrelieren, ist es wahrscheinlich, dass lineare Modelle überanpassen.

Ridge Regression vermeidet eine Überanpassung, indem Modelle mit zu großen Koeffizienten mit einer Strafe belegt werden.

SJTVM
quelle
Nun ja, aber die
Gratregression