Warum ist eine Variablenauswahl notwendig?

31

Gängige datenbasierte Variablenauswahlverfahren (z. B. vorwärts, rückwärts, schrittweise, alle Teilmengen) führen tendenziell zu Modellen mit unerwünschten Eigenschaften, darunter:

  1. Koeffizienten von Null weg vorgespannt.
  2. Zu kleine Standardfehler und zu enge Konfidenzintervalle.
  3. Teststatistiken und p-Werte, die nicht die angegebene Bedeutung haben.
  4. Schätzungen der Modellanpassung sind zu optimistisch.
  5. Eingeschlossene Begriffe, die bedeutungslos sein können (z. B. Ausschluss von Begriffen niedrigerer Ordnung).

Die Auswahlverfahren für Variablen bleiben jedoch bestehen. Warum sind diese Verfahren angesichts der Probleme bei der Variablenauswahl erforderlich? Was motiviert sie?

Einige Vorschläge, um die Diskussion zu beginnen ....

  • Der Wunsch nach interpretierbaren Regressionskoeffizienten? (In einem Modell mit vielen Infusionen fehlgeleitet?)
  • Varianz durch irrelevante Variablen eliminieren?
  • Unnötige Kovarianz / Redundanz zwischen den unabhängigen Variablen beseitigen?
  • Reduzieren Sie die Anzahl der Parameterschätzungen (Leistungsprobleme, Stichprobengröße)

Gibt es noch andere Sind die Probleme, mit denen sich die Techniken zur Variablenauswahl befassen, wichtiger oder weniger wichtig als die Probleme, die die Verfahren zur Variablenauswahl verursachen? Wann sollten sie verwendet werden? Wann sollten sie nicht verwendet werden?

Brett
quelle
Meiner Meinung nach müssen wir, um ein Problem klar zu diskutieren, es zuerst in einer guten Weise spezifizieren und dann in einer geeigneten mathematischen Form formulieren, damit wir einen Rahmen haben, in dem das Problem klar diskutiert wird. Für das Variablenauswahlproblem zB für lineare Regressionsmodelle. Es erscheint sinnvoll, zunächst ein Modell festzulegen und (i) die Vor- / Nachteile (z. B. Verbesserung / Verschlechterung der Schätzung oder Vorhersage) der Variablenauswahl zu untersuchen. (ii) die Vorteile des Variablenauswahlverfahrens gegenüber der LS-Schätzung?

Antworten:

17

Eine variable Auswahl (ohne Bestrafung) macht die Sache nur noch schlimmer. Die Variablenauswahl hat fast keine Chance, die "richtigen" Variablen zu finden, und führt zu einer starken Überbewertung der Auswirkungen der verbleibenden Variablen und einer starken Untertreibung der Standardfehler. Es ist ein Fehler zu glauben, dass die Auswahl von Variablen auf die übliche Weise dazu beiträgt, das Problem "groß p klein n" zu umgehen. Unterm Strich ist das endgültige Modell in jeder Hinsicht irreführend. Dies hängt mit einer erstaunlichen Aussage zusammen, die ich in einem epidemiologischen Artikel gelesen habe: "Wir hatten keine ausreichende Stichprobengröße, um ein multivariables Modell zu entwickeln, und führten stattdessen alle möglichen Tests für 2x2-Tabellen durch."

Jedes Mal, wenn der vorliegende Datensatz zur Eliminierung von Variablen verwendet wird und Y zur Entscheidungsfindung verwendet wird, werden alle statistischen Größen verzerrt. Typische Variablenauswahl ist ein Trugbild.

Bearbeiten : (Kopieren von Kommentaren von unten durch die Falte versteckt)

Ich möchte nicht eigennützig sein, aber mein Buch Regression Modeling Strategies befasst sich eingehend damit. Online-Materialien einschließlich Handouts finden Sie auf meiner Webseite . Einige verfügbare Methoden sind Bestrafung ( ), Bestrafung (Lasso) und das sogenannte elastische Netz (Kombination von und ). Oder verwenden Sie die Datenreduktion (blind für die Antwort ), bevor Sie eine Regression durchführen. Mein Buch widmet dem mehr Raum als der Bestrafung.L 1 L 1 L 2 YL2L1L1L2Y.

Frank Harrell
quelle
6
Ich denke, diese Antwort könnte durch einige Hinweise zum weiteren Vorgehen verbessert werden. Die Antwort enthält sehr breite und endgültige Aussagen (denen ich im Allgemeinen zustimme), ohne auf Ressourcen Bezug zu nehmen, die die Behauptungen stützen würden. Bestrafung ist mit Sicherheit auch kein Allheilmittel, und wenn man diesen Weg einschlägt, muss man viele Entscheidungen treffen.
Kardinal
3
Siehe oben, wo ich weitere Informationen bereitgestellt habe. Die kürzeste Möglichkeit, das Problem anzugeben, besteht darin, dass ein Hauptgrund dafür, dass eine Variable "ausgewählt" wurde, darin besteht, dass ihr Effekt überschätzt wurde.
Frank Harrell
2
L2L1L2
2
L2L2L1pn
2
Vielleicht war mein Kommentar nicht ganz so klar, wie ich es beabsichtigt hatte. Ja, ich bin damit einverstanden, dass die -Bestrafung für sich genommen mehrere schöne Interpretationen hat, obwohl sie keine variable Auswahl zur Folge hat. Es ist das elastische Netz, das ich aus statistischer Sicht nicht besonders gut motiviert oder natürlich finde, abgesehen von der Tatsache, dass in einigen Fällen eine bessere Prognoseleistung erzielt wird. L2
Kardinal
14

Zuallererst sind die von Ihnen erwähnten Nachteile die Auswirkungen einer falsch durchgeführten Merkmalsauswahl , dh Überanpassung, Unvollendung oder Überschwingen.

eYYYeY.

Alle relevanten Ebenen geben einen Einblick in das, was den jeweiligen Prozess wirklich antreibt, haben also erklärenden Wert. Minimales optimales Niveau (von Entwurf her) ergibt ein möglichst nicht überarbeitetes Modell, das mit möglichst übersichtlichen Daten arbeitet.

Real-World FS möchte nur eines dieser Ziele erreichen (normalerweise das letztere).


quelle
4
Ich gehe davon aus, dass Sie sich auf das Entfernen von Variablen beziehen, ohne die vorhandenen Daten zu verwenden. Sie können den vorliegenden Datensatz nicht verwenden, um dies zu tun. Dies wäre unzuverlässig und würde statistische Schlussfolgerungen verfälschen.
Frank Harrell
Wie ich schrieb, ist dies nur eine theoretische Grundlage des Problems (aus Bayes'schen Netzen). Die genaue Art und Weise, dies zu realisieren, ist offensichtlich unmöglich, und ich stimme zu, dass die statistische Modellierung unter der sinnlosen Verwendung von RFE und ähnlichen Dingen sehr gelitten hat - dennoch verfügt das maschinelle Lernen über einige heuristische Algorithmen, die mit Sicherheit nicht hoffnungslos sind (dh stabile Auswahlen und Modelle treffen) das erweist sich in fairen Tests als nicht überzogen).
Was ist RFE?
kjetil b halvorsen
@ kjetilbhalvorsen Recursive Feature Elimination
@mbq Thx für deine interessante Antwort! Können Sie eine Referenz angeben (Bücher, Papiere usw.)? Schätzen Sie Ihre Antwort!
Kare,
10

Die Variablenauswahl ist notwendig, weil die meisten Modelle mit einer großen Anzahl irrelevanter Variablen nicht gut umgehen. Diese Variablen führen nur zu Rauschen in Ihrem Modell oder, schlimmer noch, zu einer Überanpassung. Es ist eine gute Idee, diese Variablen von der Analyse auszuschließen.

Darüber hinaus können Sie nicht alle Variablen, die in jeder Analyse vorhanden sind, einbeziehen, da es unendlich viele davon gibt. Irgendwann muss man die Grenze ziehen, und das ist gut so, wie man es will. Daher die ganze Diskussion über die Variablenauswahl.

Die meisten Probleme bei der Variablenauswahl können durch Kreuzvalidierung oder durch Verwendung eines Modells mit integrierter Bestrafung und Featureauswahl (z. B. das elastische Netz für lineare Modelle) behoben werden.

Wenn Sie an empirischen Ergebnissen interessiert sind, die sich auf mehrere Variablen beziehen, die eine Überanpassung verursachen, sehen Sie sich die Ergebnisse des Kaggle- Wettbewerbs " Don't Overfit" an.

Zach
quelle
1
Ich denke, der erste Absatz enthält ein erhebliches Missverständnis des Problems. Die Variablenauswahl hilft bei diesen Problemen in keiner Weise, sie blendet sie nur aus. Die Auswahl von Variablen führt zu enormen Überanpassungsproblemen, obwohl es, wie Sie später erwähnten, einige Möglichkeiten gibt, uns für den durch die Auswahl von Variablen verursachten Schaden ehrlich zu bestrafen.
Frank Harrell
3
@Frank Harrell: Wie entscheiden Sie, welche Variablen aus einem Modell ausgeschlossen werden sollen?
Zach
11
(1) Verwenden Sie Fachkenntnisse, bevor Sie sich den Datensatz ansehen. (2) Verwenden Sie die Redundanzanalyse / Datenreduktion blind für Y; (3) Verwenden Sie eine Methode, die für das große Problem des mehrfachen Vergleichs, das durch die Auswahl von Funktionen verursacht wird, angemessen ist (siehe an anderer Stelle auf dieser Seite).
Frank Harrell