Meine Situation:
- kleine Stichprobengröße: 116
- binäre Ergebnisvariable
- lange Liste erklärender Variablen: 44
- erklärende Variablen kamen nicht von oben; Ihre Wahl basierte auf der Literatur.
- Die meisten Fälle in der Stichprobe und die meisten Variablen haben fehlende Werte.
Ansatz für die ausgewählte Funktionsauswahl: LASSO
Mit dem glmnet-Paket von R kann ich die glmnet-Routine anscheinend nicht ausführen, da in meinem Datensatz fehlende Werte vorhanden sind. Es scheint verschiedene Methoden zum Umgang mit fehlenden Daten zu geben, daher würde ich gerne wissen:
- Zwingt LASSO eine Einschränkung hinsichtlich der Imputationsmethode, die ich verwenden kann?
- Was wäre die beste Wahl für die Imputationsmethode? Idealerweise benötige ich eine Methode, die ich auf SPSS (vorzugsweise) oder R ausführen kann.
UPDATE1: Aus einigen der folgenden Antworten wurde deutlich, dass ich mich mit grundlegenderen Fragen befasst habe, bevor ich über Imputationsmethoden nachgedacht habe. Ich möchte hier neue Fragen dazu hinzufügen. Zu der Antwort, die die Codierung als konstanten Wert und die Erstellung einer neuen Variablen vorschlägt, um mit "nicht zutreffenden" Werten und der Verwendung von Gruppen-Lasso umzugehen:
- Würden Sie sagen, dass ich bei Verwendung der Gruppe LASSO den vorgeschlagenen Ansatz für kontinuierliche Prädiktoren auch für kategoriale Prädiktoren verwenden kann? Wenn ja, gehe ich davon aus, dass dies der Erstellung einer neuen Kategorie gleichkommt - ich bin besorgt, dass dies zu Verzerrungen führen kann.
- Weiß jemand, ob das glmnet-Paket von R die Gruppe LASSO unterstützt? Wenn nicht, würde jemand einen anderen vorschlagen, der dies in Kombination mit logistischer Regression tut? Im CRAN-Repository finden Sie mehrere Optionen, in denen die Gruppe LASSO erwähnt wird. Gibt es Vorschläge, die für meinen Fall am besten geeignet sind? Vielleicht SGL?
Dies ist eine Fortsetzung einer früheren Frage von mir ( Wie wähle ich eine Teilmenge von Variablen aus meiner ursprünglichen langen Liste aus, um eine logistische Regressionsanalyse durchzuführen? ).
OBS: Ich bin kein Statistiker.
quelle
Antworten:
Wenn ein kontinuierlicher Prädiktor 'nicht zutreffende' Werte enthält, ist es oft nützlich, ihn mit zwei Variablen zu codieren:x
wobei eine Konstante ist, &c
Angenommen, der lineare Prädiktor für die Antwort ist gegeben durch
was sich auflöst
wenn gemessen wird oder bisx
wenn x 'nicht zutreffend' ist. Die Wahl von ist willkürlich und hat keinen Einfluss auf die Schätzungen des Abschnitts oder der Steigung ; beschreibt den Effekt, dass 'nicht anwendbar' ist, verglichen mit .c β0 β1 β2 x x=c
Dies ist kein geeigneter Ansatz, wenn die Antwort gemäß einem unbekannten Wert von variiert : Die Variabilität der 'fehlenden' Gruppe wird aufgeblasen, und Schätzungen der Koeffizienten anderer Prädiktoren werden aufgrund von Verwechslungen verzerrt. Fehlende Werte besser unterstellen.x
Die Verwendung von LASSO führt zu zwei Problemen:
Sie können beide Probleme lösen, indem Sie stattdessen die Gruppe LASSO mit einer Gruppe aus und : Die wird auf die der orthonormalisierten Matrix angewendet . (Kategoriale Prädiktoren sind das Aushängeschild für die Gruppe LASSO - Sie würden einfach 'nicht zutreffend' als separate Ebene codieren, wie dies häufig bei unpenalisierter Regression der Fall ist.) Siehe Meier et al. (2008), JRSS B, 70 , 1, "The Gruppen-Lasso für logistische Regression " & grplasso .x1 x2 L1 L2 [x1→ x2→]
quelle
Multiple Imputation ist niemals ein schlechter Ansatz. Sie können auch Full Information Maximum Likelihood ausführen. Gute Bewertung und Vergleich hier und hier .
Wenn Sie diesen Weg gehen, sollten Sie Stan verwenden , um die ML-Imputation gleichzeitig mit Ihrer Regression als einzelnes Bayes'sches Modell anzupassen , da LASSO ohnehin ein Sonderfall der Bayes'schen Regression ist .
quelle
mi
, das Ihnen helfen könnte.Amelia
undmice
.Der Befehl CATREG in Statistik behandelt fehlende Daten mit LASSO. Sie können Fälle listweise ausschließen oder die Prozedur unterstellen lassen. Obwohl der Name darauf hindeutet, dass es sich um kategoriale Variablen handelt, können Sie die Skalierung auf Numerisch setzen, um den fortlaufenden Fall zu behandeln.
quelle
PROC CATREG
, vermute ich?Sie können auch den einfachen Ansatz in Betracht ziehen, der im folgenden Dokument vorgestellt wird:
Loh, PL & Wainwright, MJ (2011). Hochdimensionale Regression mit verrauschten und fehlenden Daten: Bereitstellbare Garantien bei Nichtkonvexität . Fortschritte in neuronalen Informationsverarbeitungssystemen (S. 2726-2734).
quelle