Irgendwelche Nachteile des elastischen Netzes gegenüber dem Lasso?

8

Was sind die Nachteile der Verwendung eines elastischen Netzes im Vergleich zu Lasso? Ich weiß, dass das elastische Netz Gruppen von Variablen auswählen kann, wenn sie stark korreliert sind.

  1. Es hat nicht das Problem, mehr als Prädiktoren auszuwählen, wenn p n ist . Während Lasso gesättigt ist, wenn p n .npnpn

  2. Wenn es stark korrelierte Prädiktoren gibt, neigt Lasso dazu, nur einen Prädiktor aus der Gruppe auszuwählen.

  3. Wenn und die Prädiktoren korreliert sind, ist die Vorhersageleistung von Lasso kleiner als die von Ridge.np

Alle diese Nachteile des Lassos werden durch das elasische Netz überwunden.

Was ich nicht verstehe ist, wann das Lasso dann verwendet werden soll? Gibt es einen Grund, es zu verwenden, wenn das elastische Netz eine bessere Leistung als Lasso aufweist? Was sind die Nachteile der Verwendung eines elastischen Netzes in einigen Fällen? In welchen Fällen wäre das Lasso die bessere Wahl?

Ville
quelle

Antworten:

8

Ein Nachteil sind die Rechenkosten. Sie müssen das relative Gewicht von L1 gegen L2-Strafe , was die Berechnungskosten um die Anzahl der Werte im α- Gitter erhöht .αα

Ein weiterer Nachteil (aber gleichzeitig ein Vorteil) ist die Flexibilität des Schätzers. Mit zunehmender Flexibilität steigt die Wahrscheinlichkeit einer Überanpassung. Es kann sein, dass das optimale für die Grundgesamtheit und für die gegebene Stichprobengröße 0 ist , wodurch das elastische Netz in Lasso umgewandelt wird. Sie wählen jedoch zufällig einen anderen Wert (weil dieser Wert eine bessere Leistung bei der Kreuzvalidierung im jeweiligen Bereich liefert Stichprobe).α0

Richard Hardy
quelle
1
Kleiner Kommentar zu Ihrem zweiten Punkt: Lasso und elastisches Netz sind Schätzer für dasselbe Modell . Daher gibt es keinen Unterschied in der Flexibilität des Modells.
Hejseb
2
@hejseb: Bei LASSO gibt es einen einzelnen Parameter, der während der Kreuzvalidierung optimiert wird: . Im elastischen Netz können Sie sowohl über α als auch über λ optimieren , was mehr Möglichkeiten für eine Überanpassung während des Auswahlprozesses für die Kreuzvalidierung bedeutet. Auf der anderen Seite ist die Verwendung der Standardwerte von α in der Regel sehr gut, so dass häufig nur λ über optimiert wird. Daher stimme ich Ihrer Aussage nicht zu, da ich α und λ als Teil des Modells betrachte (obwohl ich die Mehrdeutigkeit verstehe). λαλαλαλ
Cliff AB
3
αλβαλ