Eine neue Frage hier. Ich führe derzeit eine nichtparametrische Regression mit dem np-Paket in R durch. Ich habe 7 Funktionen und mit einem Brute-Force-Ansatz habe ich die besten 3 identifiziert. Aber bald werde ich viel mehr als 7 Funktionen haben!
Meine Frage ist, was die derzeit besten Methoden zur Merkmalsauswahl für die nichtparametrische Regression sind. Und welche, wenn irgendwelche Pakete die Methoden implementieren. Vielen Dank.
Antworten:
Sofern die Identifizierung der relevantesten Variablen kein Hauptziel der Analyse ist, ist es häufig besser, überhaupt keine Merkmalsauswahl vorzunehmen und eine Regularisierung zu verwenden, um eine Überanpassung zu verhindern. Die Merkmalsauswahl ist ein kniffliges Verfahren, und es ist allzu leicht, das Kriterium der Merkmalsauswahl zu übertreffen, da es viele Freiheitsgrade gibt. LASSO und elastisches Netz sind ein guter Kompromiss. Sie erreichen Sparsamkeit eher durch Regularisierung als durch direkte Merkmalsauswahl, sodass sie weniger anfällig für diese spezielle Form der Überanpassung sind.
quelle
Lasso ist in der Tat gut. Einfache Dinge wie das Beginnen mit keiner und das Hinzufügen nacheinander sortiert nach "Nützlichkeit" (über Kreuzvalidierung) funktionieren auch in der Praxis recht gut. Dies wird manchmal als stufenweise Feedforward-Auswahl bezeichnet.
Beachten Sie, dass das Teilmengenauswahlproblem ziemlich unabhängig von der Art der Klassifizierung / Regression ist. Es ist nur so, dass nichtparametrische Methoden langsam sein können und daher intelligentere Auswahlmethoden erfordern.
Das Buch 'Die Elemente des statistischen Lernens' von T. Hastie gibt einen schönen Überblick.
quelle