Warum kann die Ridge-Regression keine bessere Interpretierbarkeit bieten als LASSO?

11

Ich habe bereits eine Vorstellung von den Vor- und Nachteilen der Gratregression und des LASSO.

Für das LASSO ergibt der L1-Strafausdruck einen Vektor mit geringem Koeffizienten, der als Merkmalsauswahlmethode angesehen werden kann. Es gibt jedoch einige Einschränkungen für den LASSO. Wenn die Merkmale eine hohe Korrelation aufweisen, wählt der LASSO nur eines davon aus. Zusätzlich wählt der LASSO bei Problemen mit > höchstens Parameter aus ( und sind die Anzahl der Beobachtungen bzw. Parameter). Diese machen den LASSO empirisch zu einer suboptimalen Methode hinsichtlich der Vorhersagbarkeit im Vergleich zur Gratregression.pnnnp

Für die Gratregression bietet es im Allgemeinen eine bessere Vorhersagbarkeit. Die Interpretierbarkeit ist jedoch nicht so gut wie beim LASSO.

Die obige Erklärung findet sich häufig in Lehrbüchern zum maschinellen Lernen / Data Mining. Ich bin jedoch immer noch verwirrt über zwei Dinge:

  1. Wenn wir den Merkmalsbereich normalisieren (z. B. zwischen 0 und 1 oder mit dem Mittelwert Null und der Einheitsvarianz) und die Gratregression ausführen, können wir immer noch eine Vorstellung von der Wichtigkeit des Merkmals haben, indem wir die absoluten Werte der Koeffizienten sortieren (das wichtigste Merkmal hat die höchster absoluter Wert der Koeffizienten). Obwohl wir Features nicht explizit auswählen, geht die Interpretierbarkeit mithilfe der Ridge-Regression nicht verloren. Gleichzeitig können wir immer noch eine hohe Vorhersagekraft erzielen. Warum brauchen wir dann den LASSO? Vermisse ich hier etwas?

  2. Wird der LASSO aufgrund seiner Funktionsauswahl bevorzugt? Nach meinem Verständnis sind die Gründe für die Auswahl von Features die Fähigkeit zur Verallgemeinerung und die einfache Berechnung.

    Um die Berechnung zu vereinfachen, möchten wir nicht alle 1 Million Features in unser Modell einspeisen, wenn wir einige NLP-Aufgaben ausführen. Daher lassen wir zuerst einige offensichtlich nutzlose Features fallen, um die Rechenkosten zu senken. Für den LASSO können wir jedoch das Ergebnis der Merkmalsauswahl (den spärlichen Vektor) erst kennen, nachdem wir alle Daten in unser Modell eingespeist haben. Daher profitieren wir vom LASSO nicht, wenn es darum geht, die Rechenkosten zu senken. Wir können die Vorhersage nur ein wenig schneller machen, da wir jetzt nur die Teilmenge der Merkmale (z. B. 500 von 1 Million) in unser Modell einspeisen, um vorhergesagte Ergebnisse zu generieren.

    Wenn der LASSO wegen seiner Fähigkeit zur Verallgemeinerung bevorzugt wird, können wir das gleiche Ziel auch mithilfe der Gratregression (oder einer anderen Art der Regularisierung) erreichen. Warum brauchen wir wieder LASSO (oder elastische Netze)? Warum können wir uns nicht einfach an die Gratregression halten?

Könnte jemand bitte etwas Licht ins Dunkel bringen? Vielen Dank!

Brad Li
quelle
3
L.1L.2
3
Ich frage mich auch, welche Lehrbücher Dinge wie Gratregression sagen , die im Allgemeinen eine bessere Vorhersagbarkeit bietet (im Gegensatz zu LASSO verstehe ich, nicht im Gegensatz zu uneingeschränkter Regression). Vielleicht ist allgemein nicht so allgemein in ihrer Verwendung. Wie viel Interpretierbarkeit sollen Regularisierungsmethoden bringen? (Auch Shmueli "Erklären oder Vorhersagen" (2010) ist ein schönes Stück, obwohl nicht direkt verwandt.)
Richard Hardy
1
@ RichardHardy, du hast recht. Jetzt habe ich das Lehrbuch genauer gelesen und festgestellt, dass " weder die Gratregression noch das Lasso das andere allgemein dominieren " auf Seite 223, Eine Einführung in das statistische Lernen mit Anwendungen in R , Gareth James et al.
Brad Li,
@RichardHardy, ursprünglich fand ich ähnliche Argumente für die L1-Regularisierung in den LIBLINEAR-FAQ: csie.ntu.edu.tw/~cjlin/liblinear/…
Brad Li
Würden Grat- und Lasso-Läufe an einem oder zwei realen Beispielen die Unterschiede verdeutlichen? (Aber sie sind nicht einfach zu vergleichen - Plot Fit vs. Sparsity?)
Denis

Antworten:

15
  1. Wenn Sie 1 Million kammgeschrumpfte, skalierte, aber nicht Null-Features bestellen, müssen Sie eine Entscheidung treffen: Sie werden sich die n besten Prädiktoren ansehen , aber was ist n ? Das LASSO löst dieses Problem auf prinzipielle, objektive Weise, da es für jeden Schritt auf dem Pfad (und häufig für einen Punkt, z. B. durch Kreuzvalidierung) nur m Koeffizienten gibt, die nicht Null sind.

  2. Sehr oft trainieren Sie Modelle mit einigen Daten und wenden sie später auf einige noch nicht erfasste Daten an. Sie können Ihr Modell beispielsweise auf 50.000.000 E-Mails anpassen und dieses Modell dann für jede neue E-Mail verwenden. Sie werden es zwar auf den gesamten Funktionsumfang der ersten 50.000.000 E-Mails anpassen, aber für jede folgende E-Mail werden Sie sich mit einem viel sparsameren, schnelleren und viel speichereffizienteren Modell befassen. Sie müssen auch nicht einmal die Informationen für die verworfenen Features sammeln, was sehr hilfreich sein kann, wenn das Extrahieren der Features teuer ist, z. B. durch Genotypisierung.

Eine andere Perspektive auf das L1 / L2-Problem, die beispielsweise von Andrew Gelman aufgedeckt wurde, ist, dass Sie oft eine gewisse Intuition haben, wie Ihr Problem aussehen könnte. Unter bestimmten Umständen ist es möglich, dass die Realität wirklich spärlich ist. Vielleicht haben Sie Millionen von Genen gemessen, aber es ist plausibel, dass nur 30.000 von ihnen tatsächlich den Dopaminstoffwechsel bestimmen. In einer solchen Situation passt L1 wohl besser zum Problem.
In anderen Fällen kann die Realität dicht sein. In der Psychologie beispielsweise korreliert "alles (bis zu einem gewissen Grad) mit allem" (Paul Meehl). Präferenzen für Äpfel gegen Orangen wahrscheinlich tun Korrelat mit politischen Neigungen irgendwie - und sogar mit IQ. Eine Regularisierung mag hier noch sinnvoll sein, aber echte Null-Effekte sollten selten sein, sodass L2 möglicherweise besser geeignet ist.

jona
quelle
y=- -2x1+3x2- -x3
x2>x1>x3[0,1]]
Brad Li
Natürlich können Sie sie sortieren, aber Sie müssen immer noch eine Entscheidung treffen, welche Teilmenge von ihnen Sie betrachten.
Jona
6
Eine andere Möglichkeit, dies auszudrücken, wäre: Ridge kann bei der Auswahl von Features hilfreich sein , LASSO führt die Feature-Auswahl durch.
Jona
1
@Brad, zusätzlich zu der hervorragenden Antwort von jona (+1), beachten Sie, dass die Beurteilung der Wichtigkeit von Merkmalen anhand ihres standardisierten Regressionskoeffizienten ein möglicher Ansatz ist, aber nicht der einzige; Es gibt verschiedene Maße von "Merkmalsbedeutung", die leicht zu widersprüchlichen Ergebnissen führen können. In diesem Thread finden Sie eine lange Diskussion: stats.stackexchange.com/questions/64010 .
Amöbe sagt Reinstate Monica
1

Die Interpretierbarkeit nimmt ab, wenn das Ziel von vielen Funktionen abhängt. Es erhöht sich, wenn wir die Anzahl der Features reduzieren und die Genauigkeit beibehalten können. Die Ridge-Regularisierung kann die Anzahl der Features nicht reduzieren. Aber Lasso hat die Fähigkeit. Wie dies geschieht, wird visuell unter folgendem Link erklärt:

Klicken Sie auf Artikel zu Towards Data Science

Solver149
quelle