Gibt es eine Bedeutung der Fläche unter Kurven im Lasso-Diagramm?

7

Das folgende Diagramm wird bei der Durchführung von LASSO mit dem glmnet-Paket erhalten:

Geben Sie hier die Bildbeschreibung ein

Gibt es eine Signifikanz der Fläche unter den Kurven (unter Verwendung von 0 als Basislinie) für die Berichterstattung über die Signifikanz der Variablen? Können wir sagen, dass die Bedeutung verschiedener Variablen für die Vorhersage der abhängigen Variablen sich in der Fläche unter ihrer Kurve widerspiegelt? Hier sind also die lila und schwarzen Variablen wahrscheinlich gleich wichtig. Ihnen folgen (in absteigender Reihenfolge) tiefblaue, grüne, hellblaue und rote Variablen.

rnso
quelle
Die Antwort lautet wahrscheinlich ja. Der Punkt ist, dass man vor der Anwendung von Schrumpfungsmethoden die Prädiktoren standardisieren sollte, so dass die Schrumpfung tatsächlich ein Hinweis auf die Effektgröße ist. Weitere Informationen finden Sie beispielsweise unter stats.stackexchange.com/questions/86434/…. Probleme mit der Kolinearität können die praktische Anwendung jedoch erschweren.
spdrnl
Ist die Ridge-Regression oder das Elasticnet besser für den Vergleich von Koeffizienten, um die relative Bedeutung von Variablen zu bestimmen? Ich glaube, bei der Einstellung der Kollinearität wird eine Gratregression empfohlen.
rnso

Antworten:

2

Ein paar Dinge, die mir sofort einfallen.

Ich denke, spdrnl hat recht, aufgrund der Standardisierung sollten die Effektgrößen vergleichbar sein. Es sieht so aus, als ob es der Fall sein könnte, dass der Plot auf der Skala der ursprünglichen Variablen liegt. Ich würde jedoch prüfen, welcher wahr ist, und mit einem Plot der Koeffizienten der standardisierten Prädiktoren arbeiten.

Erste Beobachtung. Ich denke, Sie sollten mit Ihrer Integrationsregion vorsichtig sein. Angenommen, das prädiktivste Modell ist mit einem irgendwo in der Mitte des Diagramms verknüpft . Dann sind die Modelle, die der linken Seite des Diagramms entsprechen, überangepasst und erfassen nur Rauschen in den Daten. Sie möchten wahrscheinlich nicht über diesen Bereich berichten. In Bezug auf Lambda würde ich die Integration empfehlen:log(λ)

0λopt|βi(t)|

Zweite Beobachtung. Mit nicht monotonen Koeffizientenpfaden verlieren Sie etwas Subtilität. Ich denke an dein Lasso-Beispiel von gestern

Geben Sie hier die Bildbeschreibung ein

Hier würde die Flächenmethode eine bestimmte Bedeutung für angeben cyl. Was wirklich stimmt, ist, dass dies cylfür kleine Modelle wichtig ist, dann fällt der Effekt für große Modelle aus. Der Gebietsansatz erfasst dies nicht. Möglicherweise möchten Sie Ihre Flächenmessungen mit Kommentaren oder Bildern ergänzen, die sich auf diese interessanten Fälle konzentrieren.

Schließlich müssen Sie auswählen, was auf Ihrer x-Achse gemessen werden soll. Die Auswahlmöglichkeiten sind , und. Ich würde mich zu Letzterem neigen, da dies misst, wie viel des gesamten zugewiesenen Koeffizientenbudgets an jeden Prädiktor geht. Die anderen sind nur durch Lagrange-Multiplikatoren interpretierbar, was es schwierig macht, wirklich sicher zu sein, was gemessen wird.λlog(λ)i|βi|

Matthew Drury
quelle
Wie können wir die Summe aller Betas erhalten, die Sie für jeden Prädiktor für den Bereich der x-Achse von mod (mod = glmnet (as.matrix (mtcars [-1]), mtcars [, 1]) vorschlagen?
rnso
Versuchen Sie es apply(abs(mod$beta), 2, sum). Ich bin mir nicht sicher, ob mod$betadie normalisierten oder nicht normalisierten Koeffizienten vorhanden sind.
Matthew Drury