Gängige datenbasierte Variablenauswahlverfahren (z. B. vorwärts, rückwärts, schrittweise, alle Teilmengen) führen tendenziell zu Modellen mit unerwünschten Eigenschaften, darunter:
- Koeffizienten von Null weg vorgespannt.
- Zu kleine Standardfehler und zu enge Konfidenzintervalle.
- Teststatistiken und p-Werte, die nicht die angegebene Bedeutung haben.
- Schätzungen der Modellanpassung sind zu optimistisch.
- Eingeschlossene Begriffe, die bedeutungslos sein können (z. B. Ausschluss von Begriffen niedrigerer Ordnung).
Die Auswahlverfahren für Variablen bleiben jedoch bestehen. Warum sind diese Verfahren angesichts der Probleme bei der Variablenauswahl erforderlich? Was motiviert sie?
Einige Vorschläge, um die Diskussion zu beginnen ....
- Der Wunsch nach interpretierbaren Regressionskoeffizienten? (In einem Modell mit vielen Infusionen fehlgeleitet?)
- Varianz durch irrelevante Variablen eliminieren?
- Unnötige Kovarianz / Redundanz zwischen den unabhängigen Variablen beseitigen?
- Reduzieren Sie die Anzahl der Parameterschätzungen (Leistungsprobleme, Stichprobengröße)
Gibt es noch andere Sind die Probleme, mit denen sich die Techniken zur Variablenauswahl befassen, wichtiger oder weniger wichtig als die Probleme, die die Verfahren zur Variablenauswahl verursachen? Wann sollten sie verwendet werden? Wann sollten sie nicht verwendet werden?
modeling
feature-selection
Brett
quelle
quelle
Antworten:
Eine variable Auswahl (ohne Bestrafung) macht die Sache nur noch schlimmer. Die Variablenauswahl hat fast keine Chance, die "richtigen" Variablen zu finden, und führt zu einer starken Überbewertung der Auswirkungen der verbleibenden Variablen und einer starken Untertreibung der Standardfehler. Es ist ein Fehler zu glauben, dass die Auswahl von Variablen auf die übliche Weise dazu beiträgt, das Problem "groß p klein n" zu umgehen. Unterm Strich ist das endgültige Modell in jeder Hinsicht irreführend. Dies hängt mit einer erstaunlichen Aussage zusammen, die ich in einem epidemiologischen Artikel gelesen habe: "Wir hatten keine ausreichende Stichprobengröße, um ein multivariables Modell zu entwickeln, und führten stattdessen alle möglichen Tests für 2x2-Tabellen durch."
Jedes Mal, wenn der vorliegende Datensatz zur Eliminierung von Variablen verwendet wird und Y zur Entscheidungsfindung verwendet wird, werden alle statistischen Größen verzerrt. Typische Variablenauswahl ist ein Trugbild.
Bearbeiten : (Kopieren von Kommentaren von unten durch die Falte versteckt)
Ich möchte nicht eigennützig sein, aber mein Buch Regression Modeling Strategies befasst sich eingehend damit. Online-Materialien einschließlich Handouts finden Sie auf meiner Webseite . Einige verfügbare Methoden sind Bestrafung ( ), Bestrafung (Lasso) und das sogenannte elastische Netz (Kombination von und ). Oder verwenden Sie die Datenreduktion (blind für die Antwort ), bevor Sie eine Regression durchführen. Mein Buch widmet dem mehr Raum als der Bestrafung.L 1 L 1 L 2 YL2 L1 L1 L2 Y.
quelle
Zuallererst sind die von Ihnen erwähnten Nachteile die Auswirkungen einer falsch durchgeführten Merkmalsauswahl , dh Überanpassung, Unvollendung oder Überschwingen.
Alle relevanten Ebenen geben einen Einblick in das, was den jeweiligen Prozess wirklich antreibt, haben also erklärenden Wert. Minimales optimales Niveau (von Entwurf her) ergibt ein möglichst nicht überarbeitetes Modell, das mit möglichst übersichtlichen Daten arbeitet.
Real-World FS möchte nur eines dieser Ziele erreichen (normalerweise das letztere).
quelle
Die Variablenauswahl ist notwendig, weil die meisten Modelle mit einer großen Anzahl irrelevanter Variablen nicht gut umgehen. Diese Variablen führen nur zu Rauschen in Ihrem Modell oder, schlimmer noch, zu einer Überanpassung. Es ist eine gute Idee, diese Variablen von der Analyse auszuschließen.
Darüber hinaus können Sie nicht alle Variablen, die in jeder Analyse vorhanden sind, einbeziehen, da es unendlich viele davon gibt. Irgendwann muss man die Grenze ziehen, und das ist gut so, wie man es will. Daher die ganze Diskussion über die Variablenauswahl.
Die meisten Probleme bei der Variablenauswahl können durch Kreuzvalidierung oder durch Verwendung eines Modells mit integrierter Bestrafung und Featureauswahl (z. B. das elastische Netz für lineare Modelle) behoben werden.
Wenn Sie an empirischen Ergebnissen interessiert sind, die sich auf mehrere Variablen beziehen, die eine Überanpassung verursachen, sehen Sie sich die Ergebnisse des Kaggle- Wettbewerbs " Don't Overfit" an.
quelle