Kurze Antwort: Wann immer Sie mit einer dieser Situationen konfrontiert sind:
- große Anzahl von Variablen oder niedriges Verhältnis von Nr. Beobachtungen zu Nr. Variablen (einschließlich des Falls n ≪ p ),
- hohe Kollinearität,
- Suchen nach einer spärlichen Lösung (dh Einbetten der Merkmalsauswahl beim Schätzen von Modellparametern) oder
- Berücksichtigung der Gruppierung von Variablen in hochdimensionalen Datensätzen.
Die Ridge-Regression liefert im Allgemeinen bessere Vorhersagen als die OLS-Lösung, da ein besserer Kompromiss zwischen Verzerrung und Varianz erzielt wird. Der Hauptnachteil besteht darin, dass alle Prädiktoren im Modell beibehalten werden. Daher ist es nicht sehr interessant, wenn Sie ein sparsames Modell suchen oder eine Art Feature-Auswahl anwenden möchten.
Zur Erzielung von Sparsity ist das Lasso angemessener, führt jedoch bei hoher Kollinearität nicht unbedingt zu guten Ergebnissen. Das zweite Problem bei der L1-Strafe besteht darin, dass die Lasso-Lösung nicht eindeutig bestimmt wird, wenn die Anzahl der Variablen größer als die Anzahl der Probanden ist (dies ist nicht der Fall bei der Gratregression). Der letzte Nachteil von Lasso ist, dass es dazu neigt, nur eine Variable aus einer Gruppe von Prädiktoren mit hohen paarweisen Korrelationen auszuwählen. In diesem Fall gibt es alternative Lösungen wie die Gruppe (dh Schrumpfung auf Block von Kovariaten erzielen, dh einige Blöcke von Regressionskoeffizienten sind genau Null) oder fusioniertLasso. Das grafische Lasso bietet auch vielversprechende Funktionen für GGMs (siehe das R glasso- Paket).
m > pn ≪ pβ
L ( λ1, λ2, β) = ∥ Y- Xβ∥2+ λ2∥ β∥2+ λ1∥ β∥1
wobei und.∥ β∥2= ∑pj = 1β2j∥ β∥1= ∑pj = 1| βj|
Das Lasso kann mit einem Algorithmus berechnet werden, der auf dem Koordinatenabstieg basiert, wie in dem kürzlich erschienenen Aufsatz von Friedman und Mitarbeitern, Regularisierungspfade für verallgemeinerte lineare Modelle über Koordinatenabstieg (JSS, 2010) oder dem LARS-Algorithmus beschrieben. In R, die bestraft , Lars oder biglars und glmnet Pakete Pakete sind nützlich; In Python gibt es das Toolkit scikit.learn mit einer umfassenden Dokumentation zu den Algorithmen, mit denen alle drei Arten von Regularisierungsschemata angewendet werden.
Was allgemeine Referenzen angeht, enthält die Lasso-Seite das meiste, was für den Einstieg in die Lasso-Regression und technische Details zur L1-Strafe erforderlich ist. Diese verwandte Frage enthält wichtige Referenzen. Wann sollte ich Lasso vs Ridge verwenden?
Eine theoretische Begründung für die Verwendung der Kammregression ist, dass ihre Lösung das posteriore Mittel ist, wenn ein Normalwert vor den Koeffizienten angegeben wird. Das heißt, wenn Sie sich für quadratische Fehler interessieren und an einen normalen Prior glauben, sind die Kantenschätzungen optimal.
In ähnlicher Weise ist die Lasso-Schätzung der hintere Modus unter einem doppelten Exponentialwert vor Ihren Koeffizienten. Dies ist bei einer Null-Eins-Verlustfunktion optimal.
In der Praxis verbessern diese Techniken normalerweise die Vorhersagegenauigkeit in Situationen, in denen Sie viele korrelierte Variablen und nicht viele Daten haben. Während der OLS-Schätzer am besten linear unverzerrt ist, weist er in diesen Situationen eine hohe Varianz auf. Wenn Sie sich den Kompromiss zwischen Bias und Varianz ansehen, verbessert sich die Vorhersagegenauigkeit, da die geringe Zunahme des Bias durch die starke Verringerung der Varianz mehr als ausgeglichen wird.
quelle