Ich führe ein LASSO mit einigen kategorialen und einigen kontinuierlichen Variablenprädiktoren. Ich habe eine Frage zu den kategorialen Variablen. Der erste Schritt, den ich verstehe, besteht darin, jeden von ihnen in Dummies zu zerlegen, sie für eine faire Bestrafung zu standardisieren und dann zurückzugehen. Für die Behandlung der Dummy-Variablen ergeben sich mehrere Möglichkeiten:
Schließen Sie alle Dummys bis auf einen für jeden Faktor ein und lassen Sie diesen als Referenzlevel. Die Interpretation eines Dummy-Koeffizienten bezieht sich auf die ausgeschlossene Kategorie "Referenz". Der Achsenabschnitt ist jetzt die mittlere Antwort für die Referenzkategorie.
Gruppieren Sie die Variablen in jedem Faktor, sodass sie entweder alle ausgeschlossen oder alle bis auf einen eingeschlossen sind. Ich glaube, das schlägt @Glen_b hier vor :
Normalerweise, ja, Sie behalten Ihre Faktoren alle zusammen. Es gibt mehrere R-Pakete, die dies tun können, einschließlich glmnet
Schließen Sie alle Ebenen ein, wie von @Andrew M hier vorgeschlagen :
Möglicherweise möchten Sie auch die Standardkontrastfunktion ändern, die standardmäßig eine Stufe jedes Faktors auslässt (Behandlungscodierung). Aufgrund der Lasso-Strafe ist dies jedoch für die Identifizierbarkeit nicht mehr erforderlich und erschwert die Interpretation der ausgewählten Variablen. Stellen Sie dazu ein
contr.Dummy <- function(contrasts, ...){ conT <- contr.treatment(contrasts=FALSE, ...) conT } options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy'))
Unabhängig davon, welche Ebenen eines Faktors ausgewählt sind, können Sie sich vorstellen, dass diese bestimmten Ebenen eine Rolle spielen, im Gegensatz zu allen ausgelassenen Ebenen. Beim maschinellen Lernen habe ich gesehen, dass diese Codierung als One-Hot-Codierung bezeichnet wird.
Fragen:
- Wie ist die Interpretation des Abschnitts und der Koeffizienten bei jedem dieser Ansätze?
- Was sind die Überlegungen bei der Auswahl einer von ihnen?
- Verringern wir die Dummy-Koeffizienten und interpretieren sie dann als Wechsel von Aus nach Ein?