Es folgt die Darstellung von glmnet mit dem Standard-Alpha (1, daher Lasso) unter Verwendung des mtcars
Datensatzes in R mit mpg
als DV und anderen als Prädiktorvariablen.
glmnet(as.matrix(mtcars[-1]), mtcars[,1])
Was können wir aus dieser Handlung in Bezug auf verschiedene Variablen schließen, vor allem am
, cyl
und wt
(rot, schwarz und hellblaue Linien)? Wie würden wir die Ausgabe in einem Bericht formulieren, der veröffentlicht werden soll?
Ich dachte an folgendes:
wt
ist der wichtigste Prädiktor vonmpg
. Es wirkt sich negativ auf diempg
.cyl
ist ein schwacher negativer Prädiktor fürmpg
.am
kann ein positiver Prädiktor für seinmpg
.Andere Variablen sind keine robusten Prädiktoren für
mpg
.
Vielen Dank für Ihre Meinung.
(Hinweis: cyl
Ist die schwarze Linie, die erst sehr nahe bei 0 liegt.)
Bearbeiten: Es folgt ein Diagramm (mod, xvar = 'lambda'), das die x-Achse in umgekehrter Reihenfolge zum obigen Diagramm anzeigt:
(PS: Wenn Sie diese Frage interessant / wichtig finden, stimmen Sie sie bitte hoch;)
-1
inglmnet(as.matrix(mtcars[-1]), mtcars[,1])
.my_data_frame[1]
gibt einen Datenrahmen mit einer Spalte, währendmy_data_frame[[1]]
undmy_data_frame[, 1]
beide Rückkehr eines Vektor, ist nicht „enthielt“ von einem Datenrahmen. Matrices, jedoch sind tatsächlich nur flach Vektoren mit einem speziellen Attribut , das sie wie ein Gitter R zugreifen können, somy_matrix[1]
,my_matrix[1, 1]
undmy_matrix[[1]]
wird die ganze erste Rückelement ausmy_matrix
.my_matrix[, 1
] gibt die erste Spalte zurück.Antworten:
Zu diesem Zweck habe ich einige korrelierte und nicht korrelierte Daten erstellt, um Folgendes zu demonstrieren:
Die Daten
x_uncorr
haben nicht korrelierte Spaltenwhile
x_corr
hat eine voreingestellte Korrelation zwischen den SpaltenBetrachten wir nun die Lasso-Diagramme für beide Fälle. Zuerst die unkorrelierten Daten
Ein paar Features fallen auf
All dies sind allgemeine Tatsachen, die für die Lasso-Regression mit nicht korrelierten Daten gelten und die entweder von Hand (gute Übung!) Oder in der Literatur nachgewiesen werden können.
Lassen Sie uns nun korrelierte Daten machen
Sie können einige Dinge an dieser Handlung ablesen, indem Sie sie mit dem nicht korrelierten Fall vergleichen
Schauen wir uns nun Ihren Plot aus dem Datensatz des Autos an und lesen einige interessante Dinge ab (ich habe Ihren Plot hier reproduziert, damit diese Diskussion einfacher zu lesen ist):
Ein Wort der Warnung : Ich habe die folgende Analyse unter der Annahme geschrieben, dass die Kurven die standardisierten Koeffizienten zeigen, in diesem Beispiel jedoch nicht. Nicht standardisierte Koeffizienten sind nicht dimensionslos und nicht vergleichbar, sodass daraus keine Schlussfolgerungen hinsichtlich der prädiktiven Bedeutung gezogen werden können. Damit die folgende Analyse gültig ist, geben Sie bitte vor, dass es sich bei der Darstellung um die standardisierten Koeffizienten handelt, und führen Sie eine eigene Analyse für standardisierte Koeffizientenpfade durch.
wt
scheint der Prädiktor sehr wichtig. Es tritt zuerst in das Modell ein und fällt langsam und stetig auf seinen Endwert ab. Es hat ein paar Korrelationen, die es zu einer etwas holprigen Fahrt machen,am
insbesondere scheint es einen drastischen Effekt zu haben, wenn es eintritt.am
ist auch wichtig. Es kommt später herein und korreliert damitwt
, da es die Neigung vonwt
auf gewaltsame Weise beeinflusst. Es ist auch korreliert mitcarb
undqsec
, weil wir nicht die vorhersehbare Abschwächung der Steigung sehen, wenn diese eintreten. Nachdem diese vier Variablen obwohl eingegeben haben, wir haben das schöne unkorreliert Muster zu sehen, so ist es mit allen Prädiktoren am Ende zu sein scheint unkorreliert.cyl
und erkennenwt
.cyl
ist ziemlich faszinierend. Es tritt an zweiter Stelle ein, ist also wichtig für kleine Modelle. Nach anderen Variablen und vor allem nach deram
Eingabe ist es nicht mehr so wichtig, und sein Trend kehrt sich um und wird schließlich so gut wie entfernt. Es scheint, dass der Effekt voncyl
vollständig von den Variablen erfasst werden kann, die am Ende des Prozesses eingegeben werden. Ob die Verwendungcyl
oder die komplementäre Gruppe von Variablen angemessener ist, hängt wirklich vom Kompromiss zwischen Bias und Varianz ab. Wenn Sie die Gruppe in Ihrem endgültigen Modell haben, würde dies die Varianz erheblich erhöhen, aber es kann sein, dass die niedrigere Verzerrung dies wieder wettmacht!Das ist eine kleine Einführung, wie ich gelernt habe, Informationen aus diesen Handlungen abzulesen. Ich denke, sie machen jede Menge Spaß!
Ich würde den Fall sagen für
wt
undam
sind eindeutig, sie wichtig sind.cyl
ist viel subtiler, es ist wichtig in einem kleinen Modell, aber überhaupt nicht relevant in einem großen.Ich würde nicht in der Lage sein, eine Entscheidung darüber zu treffen, was einbezogen werden soll, und zwar nur auf der Grundlage der Zahl, die wirklich im Kontext Ihrer Tätigkeit beantwortet werden muss. Man könnte sagen , dass wenn Sie ein drei Prädiktor Modell wollen, dann
wt
,am
undcyl
sind eine gute Wahl, da sie in den großen Plan der Dinge relevant sind, und sollten angemessen Effektgrößen in einem kleinen Modell am Ende mit. Dies wird vorausgesetzt, dass Sie einen externen Grund haben, ein kleines Drei-Prädiktor-Modell zu wünschen.Diese Art der Analyse deckt das gesamte Spektrum der Lambdas ab und ermöglicht Ihnen, Beziehungen über eine Reihe von Modellkomplexitäten hinweg zu analysieren. Für ein letztes Modell halte ich es jedoch für sehr wichtig, ein optimales Lambda einzustellen. In Abwesenheit anderer Einschränkungen würde ich definitiv Kreuzvalidierung verwenden, um entlang dieses Spektrums das prädiktivste Lambda zu finden, und dieses Lambda dann für ein endgültiges Modell und eine endgültige Analyse verwenden.
In der anderen Richtung gibt es manchmal äußere Einschränkungen dafür, wie komplex ein Modell sein kann (Implementierungskosten, Legacy-Systeme, erklärender Minimalismus, Interpretierbarkeit des Geschäfts, ästhetisches Erbe), und diese Art der Überprüfung kann Ihnen wirklich dabei helfen, die Form Ihrer Daten zu verstehen Die Kompromisse, die Sie eingehen, wenn Sie ein Modell wählen, das kleiner als optimal ist.
quelle