Welche Methoden stehen für die Auswahl von Prädiktoren in multivariater linearer Regression mit geeigneten Prädiktoren zur Verfügung, um eine "optimale" Teilmenge der Prädiktoren zu finden, ohne alle 2 p Teilmengen explizit zu testen ? In 'Applied Survival Analysis' beziehen sich Hosmer & Lemeshow auf Kuks Methode, aber ich kann das Originalpapier nicht finden. Kann jemand diese Methode oder, noch besser, eine modernere Technik beschreiben? Man kann normalverteilte Fehler annehmen.
9
penalized
R-Paket verbunden), j.mp/cooIT3 . Vielleicht auch dieser, j.mp/bkDQUj . CheersAntworten:
Ich habe noch nie von Kuks Methode gehört, aber das aktuelle Thema ist heutzutage die L1-Minimierung. Das Grundprinzip ist, dass, wenn Sie einen Strafausdruck des absoluten Werts der Regressionskoeffizienten verwenden, die unwichtigen auf Null gehen sollten.
Diese Techniken haben einige lustige Namen: Lasso, LARS, Dantzig Selektor. Sie können die Artikel lesen, aber ein guter Anfang sind Elemente des statistischen Lernens , Kapitel 3.
quelle
Dies ist ein großes Thema. Wie bereits erwähnt, geben Hastie, Tibshirani und Friedman in Kapitel 3 der Elemente des statistischen Lernens eine gute Einführung.
Ein paar Punkte. 1) Was meinst du mit "am besten" oder "optimal"? Was in einem Sinne am besten ist, ist in einem anderen möglicherweise nicht am besten. Zwei gängige Kriterien sind die Vorhersagegenauigkeit (Vorhersage der Ergebnisvariablen) und die Erstellung unvoreingenommener Schätzer der Koeffizienten. Einige Methoden, wie die Lasso & Ridge Regression, erzeugen zwangsläufig voreingenommene Koeffizientenschätzer.
2) Der Ausdruck "beste Teilmengen" selbst kann auf zwei verschiedene Arten verwendet werden. Im Allgemeinen wird auf die beste Teilmenge unter allen Prädiktoren verwiesen, die einige Modellbildungskriterien optimiert. Insbesondere kann auf den effizienten Algorithmus von Furnival und Wilson verwiesen werden, um diese Teilmenge unter moderaten (~ 50) Zahlen linearer Prädiktoren zu finden (Regressions by Leaps and Bounds. Technometrics, Vol. 16, No. 4 (Nov. 1974), pp. 499-51)
http://www.jstor.org/stable/1267601
quelle
Was ich gelernt habe, ist, dass Sie zuerst den Best Subsets Approach als Screening-Tool verwenden und dann anhand der schrittweisen Auswahlverfahren entscheiden können, welche Modelle die besten Subset-Modelle sein könnten (derzeit ist die Anzahl dieser Modelle recht gering). Wenn eines der Modelle die Modellbedingungen erfüllt, den Trend in den Daten gut zusammenfasst und Ihnen vor allem die Beantwortung Ihrer Forschungsfrage ermöglicht, ist Ihre Arbeit erledigt.
quelle