Ich habe einen Datensatz mit ungefähr 30 unabhängigen Variablen und möchte ein verallgemeinertes lineares Modell (GLM) erstellen, um die Beziehung zwischen ihnen und der abhängigen Variablen zu untersuchen.
Mir ist bewusst, dass die Methode, die mir für diese Situation beigebracht wurde, die schrittweise Regression, jetzt als statistische Sünde angesehen wird .
Welche modernen Methoden der Modellauswahl sollten in dieser Situation angewendet werden?
Antworten:
Es gibt verschiedene Alternativen zur schrittweisen Regression . Die am häufigsten verwendeten, die ich gesehen habe, sind:
Sowohl PLS Regression als auch LASSO sind in R-Paketen wie implementiert
PLS : http://cran.r-project.org/web/packages/pls/ und
LARS : http://cran.r-project.org/web/packages/lars/index.html
Wenn Sie nur wollen erforschen , die die Beziehung zwischen der abhängigen Variablen und den unabhängigen Variablen (zB Sie keine statistische Signifikanz Tests müssen), würde ich auch empfehlen , Machine Learning Methoden wie Zufällige Wälder oder Klassifizierung / Regression Trees . Zufällige Wälder können auch komplexe nichtlineare Beziehungen zwischen abhängigen und unabhängigen Variablen approximieren, die mit linearen Techniken (wie der linearen Regression ) möglicherweise nicht aufgedeckt wurden .
Ein guter Ausgangspunkt für maschinelles Lernen könnte die Task-Ansicht für maschinelles Lernen in CRAN sein:
Aufgabenansicht für maschinelles Lernen : http://cran.r-project.org/web/views/MachineLearning.html
quelle
Eine weitere Option, die Sie für die variable Auswahl und Regularisierung in Betracht ziehen könnten, ist das elastische Netz . Es ist in R über das glmnet- Paket implementiert .
quelle
Die Modellmittelung ist eine Möglichkeit (ein informationstheoretischer Ansatz). Das R-Paket glmulti kann für jede Kombination von Prädiktorvariablen lineare Modelle ausführen und für diese Ergebnisse eine Modellmittelung durchführen.
Siehe http://sites.google.com/site/mcgillbgsa/workshops/glmulti
Vergessen Sie jedoch nicht, zuerst die Kollinearität zwischen Prädiktorvariablen zu untersuchen. Varianz-Inflationsfaktoren (erhältlich im R-Paket "Auto") sind hier nützlich.
quelle
MuMIn
,AICcmodavg
Pakete, obwohlglmulti
sind gescheiter über große Modell - Sets.@ Johannes gab eine ausgezeichnete Antwort. Wenn Sie ein SAS-Benutzer sind, ist LASSO über PROC GLMSELECT und partielle Fehlerquadrate über PROC PLS verfügbar.
David Cassell und ich haben in einigen SAS-Benutzergruppen einen Vortrag über LASSO (und Least Angle Regression) gehalten. Es ist hier erhältlich
quelle
Interessante Diskussion. Die schrittweise Regression als statistische Sünde zu bezeichnen, ist eine religiöse Aussage - solange man weiß, was sie tut und die Ziele der Übung klar sind, ist es definitiv ein guter Ansatz mit seinen eigenen Annahmen und ist es mit Sicherheit voreingenommen und garantiert keine Optimalität usw. Dennoch kann das Gleiche von vielen anderen Dingen gesagt werden, die wir tun. Ich habe nicht gesehen, dass CCA erwähnt wurde, das das grundlegendere Problem der Korrelationsstruktur im kovariaten Raum anspricht, die Optimalität garantiert, seit geraumer Zeit existiert und eine gewisse Lernkurve aufweist. Es ist auf einer Vielzahl von Plattformen implementiert, darunter R.
quelle