Berechnung der besten Teilmenge von Prädiktoren für die lineare Regression

9

Welche Methoden stehen für die Auswahl von Prädiktoren in multivariater linearer Regression mit geeigneten Prädiktoren zur Verfügung, um eine "optimale" Teilmenge der Prädiktoren zu finden, ohne alle 2 p Teilmengen explizit zu testen ? In 'Applied Survival Analysis' beziehen sich Hosmer & Lemeshow auf Kuks Methode, aber ich kann das Originalpapier nicht finden. Kann jemand diese Methode oder, noch besser, eine modernere Technik beschreiben? Man kann normalverteilte Fehler annehmen.p2p

shabbychef
quelle
1
Beziehen Sie sich auf das folgende Papier? Kuk, AYC (1984) Regression aller Teilmengen in einem proportionalen Gefährdungsmodell. Biometrika, 71, 587-592
chl
ja in der Tat. Ich denke, ich muss das Papier irgendwie ausgraben. Es scheint jedoch alt zu sein.
Shabbychef
2
Finden Sie diesen Artikel in der Zwischenzeit, Die Lasso-Methode zur Variablenauswahl im Cox-Modell, von Tibshirani (Stat. Med. 1997 16: 385-395), j.mp/bw0mB9 . HTH
chl
1
und dieses neuere (eng mit dem penalizedR-Paket verbunden), j.mp/cooIT3 . Vielleicht auch dieser, j.mp/bkDQUj . Cheers
chl

Antworten:

12

Ich habe noch nie von Kuks Methode gehört, aber das aktuelle Thema ist heutzutage die L1-Minimierung. Das Grundprinzip ist, dass, wenn Sie einen Strafausdruck des absoluten Werts der Regressionskoeffizienten verwenden, die unwichtigen auf Null gehen sollten.

Diese Techniken haben einige lustige Namen: Lasso, LARS, Dantzig Selektor. Sie können die Artikel lesen, aber ein guter Anfang sind Elemente des statistischen Lernens , Kapitel 3.

Simon Byrne
quelle
2
Übrigens enthält das bestrafte R-Paket ( j.mp/bdQ0Rp ) eine bestrafte Schätzung von l1 / l2 für generalisierte lineare und Cox-Modelle.
Chl
im Matlab Land stecken, es selbst implementieren ...
Shabbychef
LARS ist großartig, übrigens. sehr cooles Zeug. Ich bin mir nicht sicher, wie ich es in das Framework des Cox Proportional Hazards-Modells
einbauen kann, obwohl
2
Die Glmnet-Software verfügt über ein Lasso-Cox-PH-Modell: cran.r-project.org/web/packages/glmnet/index.html Es gibt auch eine MATLAB-Version (nicht sicher, ob es sich um ein Cox-Modell handelt): www-stat .stanford.edu / ~ tibs / glmnet-matlab
Simon Byrne
3

Dies ist ein großes Thema. Wie bereits erwähnt, geben Hastie, Tibshirani und Friedman in Kapitel 3 der Elemente des statistischen Lernens eine gute Einführung.

Ein paar Punkte. 1) Was meinst du mit "am besten" oder "optimal"? Was in einem Sinne am besten ist, ist in einem anderen möglicherweise nicht am besten. Zwei gängige Kriterien sind die Vorhersagegenauigkeit (Vorhersage der Ergebnisvariablen) und die Erstellung unvoreingenommener Schätzer der Koeffizienten. Einige Methoden, wie die Lasso & Ridge Regression, erzeugen zwangsläufig voreingenommene Koeffizientenschätzer.

2) Der Ausdruck "beste Teilmengen" selbst kann auf zwei verschiedene Arten verwendet werden. Im Allgemeinen wird auf die beste Teilmenge unter allen Prädiktoren verwiesen, die einige Modellbildungskriterien optimiert. Insbesondere kann auf den effizienten Algorithmus von Furnival und Wilson verwiesen werden, um diese Teilmenge unter moderaten (~ 50) Zahlen linearer Prädiktoren zu finden (Regressions by Leaps and Bounds. Technometrics, Vol. 16, No. 4 (Nov. 1974), pp. 499-51)

http://www.jstor.org/stable/1267601

Thylacoleo
quelle
1) Ja, die Frage ist etwas mehrdeutig. Wie Sie bereits erwähnt haben, gibt es viele Definitionen von "optimal": über Informationskriterium, Kreuzvalidierung usw. Die meisten heuristischen Ansätze, die ich für das Problem gesehen habe, gehen durch schrittweise Addition / Entfernung von Prädiktoren vor: Addition oder Subtraktion in einem Durchgang usw. Hosmer & Lemeshow verweisen jedoch auf diese Methode (eine Variante der Arbeit von Lawless & Singhal), die Prädiktoren irgendwie "magisch" durch eine einzige Berechnung eines MLR auswählt (modulo einige andere Dinge). Ich bin sehr neugierig auf diese Methode ...
Shabbychef
0

Was ich gelernt habe, ist, dass Sie zuerst den Best Subsets Approach als Screening-Tool verwenden und dann anhand der schrittweisen Auswahlverfahren entscheiden können, welche Modelle die besten Subset-Modelle sein könnten (derzeit ist die Anzahl dieser Modelle recht gering). Wenn eines der Modelle die Modellbedingungen erfüllt, den Trend in den Daten gut zusammenfasst und Ihnen vor allem die Beantwortung Ihrer Forschungsfrage ermöglicht, ist Ihre Arbeit erledigt.

Rosie Luo
quelle
1
Ich denke, Sie erinnern sich vielleicht falsch daran. Die besten Teilmengen sind viel rechenintensiver als schrittweise, würden aber notwendigerweise alles schrittweise erfassen, sodass Sie schrittweise die besten Teilmengen nach dem Screening verwenden würden. FWIW, ich bin mit der naiven Verwendung dieser Strategien aus Gründen nicht einverstanden, die ich in meiner Antwort hier diskutiere: Algorithmen für die automatische Modellauswahl .
Gung - Reinstate Monica