Verwenden Sie LASSO für die Variablenauswahl und anschließend Logit

10

Ich weiß, dass dies die statistische Schlussfolgerung trüben würde, aber es geht mir wirklich nur darum, einem genauen Modell so nahe wie möglich zu kommen.

Ich habe eine dichotome Ergebnisvariable mit einer großen Anzahl dichotomer Prädiktoren. Ich denke, ich möchte versuchen, mit LASSO auszuwählen, welche Variablen in mein Modell aufgenommen werden sollen, und diese ausgewählten Variablen dann in eine Logit-Regression eingeben.

Gibt es etwas, das ich übersehen habe, wenn es um die Praktikabilität dieses Ansatzes geht?

EvKohl
quelle
4
Sie übersehen, dass Sie die L1-Normstrafe von LASSO bei der logistischen Regression genauso wie bei der linearen Regression verwenden können.
Scortchi - Monica wieder einsetzen
1
Und dieser LASSO schrumpft und wählt aus, was Sie rückgängig machen würden.
Scortchi - Monica wieder einsetzen
Also, das ist es, was ich dachte (angesichts des Schrumpfens). Ich verwende das LARS-Paket in STATA. Das Modell, das es ausgibt, gibt keinen Achsenabschnitt ab, kann also nicht schrumpfen, oder?
EvKohl
Der Achsenabschnitt in einem Logit-Modell wird durch das Verhältnis von Positiven zu Negativen festgelegt.
Sycorax sagt Reinstate Monica
2
Sie können Ihren Daten jederzeit eine Spalte mit Einsen hinzufügen, um den Intercept-Term zu schätzen. Es ist jedoch nicht erforderlich, Modelle zu trennen. Verwenden Sie einfach die logistische Regression mit L1-Strafe.
Sven

Antworten:

9

α=1

Weitere Informationen finden Sie hier: http://web.stanford.edu/~hastie/glmnet/glmnet_alpha.html#intro

TrynnaDoStat
quelle
(+1) Auch dafür gibt es zweifellos ein Stata-Paket - Statalist ist der beste Ort, um zu fragen.
Scortchi - Monica wieder einsetzen
Vielen Dank. Ich glaube eigentlich nicht, dass es ein STATA-Paket dafür gibt. Alle Erwähnung, die ich fand, war für R.
EvKohl
3
Wenn stata lasso logisticich nach google, bekomme ich als erstes Ergebnis homepages.ucl.ac.uk/~ucakgam/stata.html .
Scortchi - Monica wieder einsetzen
Kennt jemand ein Paket in Python, das dies auch kann?
RBM
@rbm Ich bin mit Sicherheit zu spät für die Party, aber Sie können logistische Regressoren in scikit-learn regulieren.
Eli Korvigo
2

Erstens gibt es keine Garantie dafür, dass ein lineares Wahrscheinlichkeitsmodell einem Logit-Modell sehr gut nahe kommt. Folglich ist die für eine ausgewählte Teilmenge von Variablen möglicherweise weniger für die andere geeignet.

Zweitens führt die Neuanpassung trotz der im ersten Schritt erfolgten Variablenauswahl überhaupt nicht zu einer Schrumpfung. Risiko einer ernsthaften Fehlkalibrierung und möglicherweise eines kleinen Verlusts an Diskriminierung.

L1

Scortchi - Monica wieder einsetzen
quelle