Warum Lasso oder ElasticNet besser abschneiden als Ridge, wenn die Merkmale miteinander korrelieren

16

Ich habe 150 Funktionen, von denen viele stark miteinander korreliert sind. Mein Ziel ist es, den Wert einer diskreten Variablen vorherzusagen, deren Bereich 1-8 ist . Meine Stichprobengröße beträgt 550 und ich verwende die 10-fache Kreuzvalidierung.

AFAIK: Unter den Regularisierungsmethoden (Lasso, ElasticNet und Ridge) ist Ridge strenger in Bezug auf die Korrelation zwischen den Merkmalen. Deshalb habe ich erwartet, dass ich mit Ridge eine genauere Vorhersage erhalten sollte. Meine Ergebnisse zeigen jedoch, dass der mittlere absolute Fehler von Lasso oder Elastic bei 0,61 liegt, wohingegen dieser Wert 0,97 für die Gratregression beträgt . Ich frage mich, was eine Erklärung dafür wäre. Liegt das daran, dass ich viele Funktionen habe und Lasso eine bessere Leistung erbringt, weil es eine Art Funktionsauswahl vornimmt und die überflüssigen Funktionen beseitigt?

renakre
quelle
1
Warum sollte Ridge Ihrer Meinung nach besser abschneiden? Was ist Ihre Stichprobengröße?
bdeonovic
1
Was bedeutet "strengere Regression"?
Bdeonovic

Antworten:

20

x,zβ12+β22β1+β2xzY.x,zxz0,2x+0,8x,0,3x+0,7z0,5x+0,5zwird etwa genauso gut sein wie Prädiktoren. Schauen Sie sich diese drei Beispiele an, die Lasso-Strafe ist in allen drei Fällen gleich, sie ist 1, während die Kamm-Strafe unterschiedlich ist, sie ist jeweils 0,68, 0,58, 0,5, so dass die Kamm-Strafe die gleiche Gewichtung der kolinearen Variablen während der Lasso-Strafe bevorzugt wird nicht in der Lage sein zu wählen. Dies ist einer der Gründe, warum Ridge (oder allgemein elastisches Netz, das eine lineare Kombination aus Lasso und Ridge-Strafen ist) besser mit kolinearen Prädiktoren funktioniert: Wenn die Daten wenig Anlass zur Wahl zwischen verschiedenen linearen Kombinationen von kolinearen Prädiktoren geben, ist Lasso genau das Richtige "wandern", während der Grat dazu neigt, die gleiche Gewichtung zu wählen. Letzteres könnte eine bessere Vermutung für zukünftige Daten sein! Und wenn dies bei den vorliegenden Daten der Fall ist, könnte sich dies bei der Kreuzvalidierung als besseres Ergebnis bei Ridge herausstellen.

Wir können dies auf bayesianische Weise betrachten: Ridge und Lasso implizieren unterschiedliche Vorinformationen, und die von Ridge implizierten Vorinformationen sind in solchen Situationen in der Regel sinnvoller. (Diese Erklärung hier habe ich mehr oder weniger aus dem Buch "Statistisches Lernen mit Sparsamkeit, das Lasso und Verallgemeinerungen" von Trevor Hastie, Robert Tibshirani und Martin Wainwright gelernt, aber in diesem Moment konnte ich kein direktes Zitat finden).

kjetil b halvorsen
quelle
4
Guter Punkt über die Möglichkeit, dass Ridge bei zukünftigen Daten besser funktioniert. Die Unterscheidung zwischen Fehlern bei der Quervalidierung in den vorliegenden Daten und der Nützlichkeit neuer Daten wird zu oft übersehen. Für eine Schätzung des letzteren könnte das OP die gesamten LASSO-, Elastic-Net- und Ridge-Modellbildungsprozesse an mehreren Bootstrap-Beispielen der Daten wiederholen und dann Fehler untersuchen, wenn sie auf den gesamten Datensatz angewendet werden. Das testet zumindest den Modellbauprozess.
EdM
Es ist mir nicht klar, warum es vorteilhaft wäre, gleiche Gewichte für kollineare Daten zu wählen. Kann jemand auf diesen Punkt näher eingehen?
Ramon Martinez
3

Der wichtigste Unterschied zwischen Lasso und Grat besteht darin, dass Lasso auf natürliche Weise eine Auswahl trifft, insbesondere dort, wo Kovariaten stark korrelieren. Es ist unmöglich, wirklich sicher zu sein, ohne die angepassten Koeffizienten zu sehen, aber man kann sich leicht vorstellen, dass unter diesen korrelierten Merkmalen viele einfach nutzlos waren.

carlo
quelle