Wie wählt LASSO unter kollinearen Prädiktoren aus?

10

Ich suche nach einer intuitiven Antwort, warum ein GLM LASSO-Modell einen bestimmten Prädiktor aus einer Gruppe stark korrelierter auswählt und warum dies anders ist als die Auswahl der besten Teilmengenfunktionen.

Aus der in Abb. 2 in Tibshirani 1996 gezeigten Geometrie des LASSO gehe ich davon aus, dass LASSO den Prädiktor mit der größeren Varianz auswählt.

Angenommen, ich verwende die beste Teilmengenauswahl mit 10-fachem CV, um 2 Prädiktoren für ein logistisches Regressionsmodell zu erhalten, und ich habe vernünftige Vorkenntnisse, dass diese 2 Prädiktoren optimal sind (im Sinne von 0-1 Verlust).

Die LASSO-Lösung bevorzugt eine weniger sparsame (5 Prädiktoren) Lösung mit größerem Vorhersagefehler. Was bewirkt intuitiv den Unterschied? Liegt es an der Art und Weise, wie LASSO unter korrelierten Prädiktoren auswählt?

Piotr Sokol
quelle

Antworten:

5

LASSO unterscheidet sich von der Auswahl der besten Teilmenge in Bezug auf Bestrafung und Pfadabhängigkeit.

Bei der Auswahl der besten Teilmenge wurde vermutlich CV verwendet, um zu identifizieren, dass 2 Prädiktoren die beste Leistung erbrachten. Während des Lebenslaufs wurden Regressionskoeffizienten voller Größe ohne Bestrafung verwendet, um zu bewerten, wie viele Variablen eingeschlossen werden sollen. Sobald die Entscheidung getroffen wurde, 2 Prädiktoren zu verwenden, werden alle Kombinationen von 2 Prädiktoren parallel mit dem gesamten Datensatz verglichen, um die 2 für das endgültige Modell zu finden. Diese beiden endgültigen Prädiktoren würden ihre Regressionskoeffizienten in voller Größe ohne Bestrafung erhalten, als wären sie die einzige Wahl gewesen.

Sie können sich vorstellen, dass LASSO mit einer großen Strafe für die Summe der Größen der Regressionskoeffizienten beginnt, wobei die Strafe allmählich gelockert wird. Das Ergebnis ist, dass Variablen einzeln eingegeben werden und an jedem Punkt während der Relaxation entschieden wird, ob es sinnvoller ist, die Koeffizienten der bereits im Modell enthaltenen Variablen zu erhöhen oder eine weitere Variable hinzuzufügen. Wenn Sie jedoch beispielsweise zu einem Modell mit zwei Variablen gelangen, sind die von LASSO zugelassenen Regressionskoeffizienten in ihrer Größe niedriger als die gleichen Variablen, die in den nicht bestraften Standardregressionen zum Vergleich von Modellen mit zwei und drei Variablen verwendet werden Auswahl der besten Teilmenge.

Dies kann als Erleichterung für die Eingabe neuer Variablen in LASSO angesehen werden als für die Auswahl der besten Teilmenge. Heuristisch gesehen tauscht LASSO potenziell niedrigere als die tatsächlichen Regressionskoeffizienten gegen die Unsicherheit aus, wie viele Variablen enthalten sein sollten. Dies würde tendenziell mehr Variablen in ein LASSO-Modell aufnehmen und möglicherweise eine schlechtere Leistung für LASSO, wenn Sie sicher wären, dass nur zwei Variablen enthalten sein müssen. Wenn Sie jedoch bereits wüssten, wie viele Prädiktorvariablen im richtigen Modell enthalten sein sollten, würden Sie LASSO wahrscheinlich nicht verwenden.

Bisher war nichts von der Kollinearität abhängig, was zu unterschiedlichen Arten von Willkür bei der Variablenauswahl in der besten Teilmenge im Vergleich zu LASSO führt. In diesem Beispiel untersuchte die beste Teilmenge alle möglichen Kombinationen von 2 Prädiktoren und wählte die beste unter diesen Kombinationen aus. Die besten 2 für diese bestimmte Datenprobe gewinnen also.

LASSO mit seiner Pfadabhängigkeit beim Hinzufügen einer Variablen zu einem Zeitpunkt bedeutet, dass eine frühe Auswahl einer Variablen Einfluss darauf haben kann, wann andere damit korrelierte Variablen später in den Relaxationsprozess eintreten. Es ist auch möglich, dass eine Variable frühzeitig eingegeben wird und ihr LASSO-Koeffizient dann abfällt, wenn andere korrelierte Variablen eingegeben werden.

In der Praxis ist die Auswahl zwischen korrelierten Prädiktoren in endgültigen Modellen mit beiden Methoden stark stichprobenabhängig, was durch Wiederholen dieser Modellbildungsprozesse an Bootstrap-Stichproben derselben Daten überprüft werden kann. Wenn es nicht zu viele Prädiktoren gibt und Ihr Hauptinteresse in der Vorhersage neuer Datensätze liegt, ist die Ridge-Regression, bei der tendenziell alle Prädiktoren erhalten bleiben, möglicherweise die bessere Wahl.

EdM
quelle