Beste Methoden zur Merkmalsauswahl für nichtparametrische Regression

10

Eine neue Frage hier. Ich führe derzeit eine nichtparametrische Regression mit dem np-Paket in R durch. Ich habe 7 Funktionen und mit einem Brute-Force-Ansatz habe ich die besten 3 identifiziert. Aber bald werde ich viel mehr als 7 Funktionen haben!

Meine Frage ist, was die derzeit besten Methoden zur Merkmalsauswahl für die nichtparametrische Regression sind. Und welche, wenn irgendwelche Pakete die Methoden implementieren. Vielen Dank.

jmmcnew
quelle
1
Was meinst du mit "viel mehr" 100? 1000? 10000? 100000?
Robin Girard
Wahrscheinlich werde ich in der Größenordnung von 100 Funktionen haben. Aber ich habe nur ein paar Minuten Zeit, um eine Entscheidung über die beste Teilmenge der Funktionen zu treffen.
Jmmcnew
1
Haben Sie Lasso oder elastisches Netz ausprobiert? pakete: lasso, glmnet. Diese Methoden können unterwegs einige Variablen "auswählen".
deps_stats

Antworten:

3

Sofern die Identifizierung der relevantesten Variablen kein Hauptziel der Analyse ist, ist es häufig besser, überhaupt keine Merkmalsauswahl vorzunehmen und eine Regularisierung zu verwenden, um eine Überanpassung zu verhindern. Die Merkmalsauswahl ist ein kniffliges Verfahren, und es ist allzu leicht, das Kriterium der Merkmalsauswahl zu übertreffen, da es viele Freiheitsgrade gibt. LASSO und elastisches Netz sind ein guter Kompromiss. Sie erreichen Sparsamkeit eher durch Regularisierung als durch direkte Merkmalsauswahl, sodass sie weniger anfällig für diese spezielle Form der Überanpassung sind.

Dikran Beuteltier
quelle
0

Lasso ist in der Tat gut. Einfache Dinge wie das Beginnen mit keiner und das Hinzufügen nacheinander sortiert nach "Nützlichkeit" (über Kreuzvalidierung) funktionieren auch in der Praxis recht gut. Dies wird manchmal als stufenweise Feedforward-Auswahl bezeichnet.

Beachten Sie, dass das Teilmengenauswahlproblem ziemlich unabhängig von der Art der Klassifizierung / Regression ist. Es ist nur so, dass nichtparametrische Methoden langsam sein können und daher intelligentere Auswahlmethoden erfordern.

Das Buch 'Die Elemente des statistischen Lernens' von T. Hastie gibt einen schönen Überblick.

Herr weiß
quelle