Was sind moderne, einfach zu verwendende Alternativen zur schrittweisen Regression?

76

Ich habe einen Datensatz mit ungefähr 30 unabhängigen Variablen und möchte ein verallgemeinertes lineares Modell (GLM) erstellen, um die Beziehung zwischen ihnen und der abhängigen Variablen zu untersuchen.

Mir ist bewusst, dass die Methode, die mir für diese Situation beigebracht wurde, die schrittweise Regression, jetzt als statistische Sünde angesehen wird .

Welche modernen Methoden der Modellauswahl sollten in dieser Situation angewendet werden?

fmark
quelle
4
Andere Leute erwähnen statistische Verfahren, die hilfreich sein können, aber ich würde zuerst fragen, ob Sie eine Theorie über die Stärke und Form der Beziehung zwischen Variablen haben. Wie groß ist Ihre Probe? Haben Sie Gründe, komplexe Modelle zu vermeiden?
Michael Bishop
2
Hat jemand Modellmittelung als Alternative in Betracht gezogen, um das Voreingenommenheitsproblem vor dem Test und Probleme mit Fehlspezifikationen zu bekämpfen? Grob gesagt sind alle Variablen potenzielle Prädiktoren, und Sie können die Wahrscheinlichkeit schätzen, dass sie nützlich sind. Somit verbessert der kombinierte Schätzer nicht nur die Prognoseleistung, sondern erzeugt auch gute Eigenschaftsschätzungen für die Parameter von Variablen unter "Umfang".
Dmitrij Celov
1
Schwindung. Hoffentlich verwendet niemand mehr schrittweise
Aksakal

Antworten:

56

Es gibt verschiedene Alternativen zur schrittweisen Regression . Die am häufigsten verwendeten, die ich gesehen habe, sind:

  • Expertenmeinung, um zu entscheiden, welche Variablen in das Modell aufgenommen werden sollen.
  • Teilweise Regression der kleinsten Quadrate . Sie erhalten im Wesentlichen latente Variablen und führen mit ihnen eine Regression durch. Sie können PCA auch selbst durchführen und dann die Hauptvariablen verwenden.
  • Minimaler absoluter Schrumpfungs- und Auswahloperator (LASSO).

Sowohl PLS Regression als auch LASSO sind in R-Paketen wie implementiert

PLS : http://cran.r-project.org/web/packages/pls/ und

LARS : http://cran.r-project.org/web/packages/lars/index.html

Wenn Sie nur wollen erforschen , die die Beziehung zwischen der abhängigen Variablen und den unabhängigen Variablen (zB Sie keine statistische Signifikanz Tests müssen), würde ich auch empfehlen , Machine Learning Methoden wie Zufällige Wälder oder Klassifizierung / Regression Trees . Zufällige Wälder können auch komplexe nichtlineare Beziehungen zwischen abhängigen und unabhängigen Variablen approximieren, die mit linearen Techniken (wie der linearen Regression ) möglicherweise nicht aufgedeckt wurden .

Ein guter Ausgangspunkt für maschinelles Lernen könnte die Task-Ansicht für maschinelles Lernen in CRAN sein:

Aufgabenansicht für maschinelles Lernen : http://cran.r-project.org/web/views/MachineLearning.html

Johannes
quelle
10
Das glmnet-Paket ist auch eine sehr schnelle Implementierung des Lassos
David J. Harris
2
Ich würde warnen, dass PLSer innerhalb der latenten Variablengemeinschaft eine sehr isolierte Clique bilden und nie in der Lage waren, in die seriöse Literatur einzudringen (womit ich zum Beispiel die asymptotische Theorie der Schätzer der kleinsten Quadrate in den Werken von Michael meine Browne, Peter Bentler, Albert Satorra und Alex Shapiro sowie die instrumentelle variable Modellierung von Ken Bollen, um nur die wenigen wichtigsten zu nennen. Seltsamerweise scheint PLS in Statistikkreisen eine akzeptable Methode zu sein, die im Allgemeinen einen höheren Grad an Strenge bewahrte als die latente Variablenmodellierungs-Community.
StasK
6
Die Elemente des statistischen Lernens enthalten einen Vergleich verschiedener Variablenauswahl- und Schrumpfungsmethoden: (OLS,) beste Teilmenge, Kamm, Lasso, PLS, PCR.
Glaube
19

Eine weitere Option, die Sie für die variable Auswahl und Regularisierung in Betracht ziehen könnten, ist das elastische Netz . Es ist in R über das glmnet- Paket implementiert .

Zach
quelle
16

Die Modellmittelung ist eine Möglichkeit (ein informationstheoretischer Ansatz). Das R-Paket glmulti kann für jede Kombination von Prädiktorvariablen lineare Modelle ausführen und für diese Ergebnisse eine Modellmittelung durchführen.

Siehe http://sites.google.com/site/mcgillbgsa/workshops/glmulti

Vergessen Sie jedoch nicht, zuerst die Kollinearität zwischen Prädiktorvariablen zu untersuchen. Varianz-Inflationsfaktoren (erhältlich im R-Paket "Auto") sind hier nützlich.

OliP
quelle
Vielen Dank. Passt es wirklich zu allen möglichen Modellen? Auch ohne Interaktionen sind das in diesem Fall rund eine Milliarde Modelle.
Peter Ellis
AFAIK kann es, aber es gibt eine genetische Algorithmusoption, die die Zeit, die für die Bewertung aller Modelle benötigt wird, erheblich verkürzt. Siehe www.jstatsoft.org/v34/i12/paper
OliP
3
auch MuMIn, AICcmodavgPakete, obwohl glmultisind gescheiter über große Modell - Sets.
Ben Bolker
8

@ Johannes gab eine ausgezeichnete Antwort. Wenn Sie ein SAS-Benutzer sind, ist LASSO über PROC GLMSELECT und partielle Fehlerquadrate über PROC PLS verfügbar.

David Cassell und ich haben in einigen SAS-Benutzergruppen einen Vortrag über LASSO (und Least Angle Regression) gehalten. Es ist hier erhältlich

Peter Flom
quelle
7

Interessante Diskussion. Die schrittweise Regression als statistische Sünde zu bezeichnen, ist eine religiöse Aussage - solange man weiß, was sie tut und die Ziele der Übung klar sind, ist es definitiv ein guter Ansatz mit seinen eigenen Annahmen und ist es mit Sicherheit voreingenommen und garantiert keine Optimalität usw. Dennoch kann das Gleiche von vielen anderen Dingen gesagt werden, die wir tun. Ich habe nicht gesehen, dass CCA erwähnt wurde, das das grundlegendere Problem der Korrelationsstruktur im kovariaten Raum anspricht, die Optimalität garantiert, seit geraumer Zeit existiert und eine gewisse Lernkurve aufweist. Es ist auf einer Vielzahl von Plattformen implementiert, darunter R.

gillesc
quelle