Ich habe 150 Funktionen, von denen viele stark miteinander korreliert sind. Mein Ziel ist es, den Wert einer diskreten Variablen vorherzusagen, deren Bereich 1-8 ist . Meine Stichprobengröße beträgt 550 und ich verwende die 10-fache Kreuzvalidierung.
AFAIK: Unter den Regularisierungsmethoden (Lasso, ElasticNet und Ridge) ist Ridge strenger in Bezug auf die Korrelation zwischen den Merkmalen. Deshalb habe ich erwartet, dass ich mit Ridge eine genauere Vorhersage erhalten sollte. Meine Ergebnisse zeigen jedoch, dass der mittlere absolute Fehler von Lasso oder Elastic bei 0,61 liegt, wohingegen dieser Wert 0,97 für die Gratregression beträgt . Ich frage mich, was eine Erklärung dafür wäre. Liegt das daran, dass ich viele Funktionen habe und Lasso eine bessere Leistung erbringt, weil es eine Art Funktionsauswahl vornimmt und die überflüssigen Funktionen beseitigt?
Antworten:
Wir können dies auf bayesianische Weise betrachten: Ridge und Lasso implizieren unterschiedliche Vorinformationen, und die von Ridge implizierten Vorinformationen sind in solchen Situationen in der Regel sinnvoller. (Diese Erklärung hier habe ich mehr oder weniger aus dem Buch "Statistisches Lernen mit Sparsamkeit, das Lasso und Verallgemeinerungen" von Trevor Hastie, Robert Tibshirani und Martin Wainwright gelernt, aber in diesem Moment konnte ich kein direktes Zitat finden).
quelle
Der wichtigste Unterschied zwischen Lasso und Grat besteht darin, dass Lasso auf natürliche Weise eine Auswahl trifft, insbesondere dort, wo Kovariaten stark korrelieren. Es ist unmöglich, wirklich sicher zu sein, ohne die angepassten Koeffizienten zu sehen, aber man kann sich leicht vorstellen, dass unter diesen korrelierten Merkmalen viele einfach nutzlos waren.
quelle