Warum ist die Merkmalsauswahl für Klassifizierungsaufgaben wichtig?

11

Ich lerne etwas über die Auswahl von Funktionen. Ich kann sehen, warum es für den Modellbau wichtig und nützlich wäre. Aber konzentrieren wir uns auf überwachte Lernaufgaben (Klassifizierungsaufgaben). Warum ist die Merkmalsauswahl für Klassifizierungsaufgaben wichtig?

Ich sehe viel Literatur über die Auswahl von Funktionen und deren Verwendung für überwachtes Lernen, aber das verwirrt mich. Bei der Funktionsauswahl geht es darum, zu ermitteln, welche Funktionen weggeworfen werden sollen. Intuitiv scheint das Wegwerfen einiger Funktionen selbstzerstörerisch zu sein: Es wirft Informationen weg. Es scheint, als sollte das Werfen von Informationen nicht helfen.

Und selbst wenn das Entfernen einiger Funktionen hilfreich ist, wenn wir einige Funktionen wegwerfen und den Rest dann in einen überwachten Lernalgorithmus einspeisen, warum müssen wir das selbst tun, anstatt den überwachten Lernalgorithmus damit umgehen zu lassen? Wenn eine Funktion nicht hilfreich ist, sollte dann kein anständiger überwachter Lernalgorithmus dies implizit entdecken und ein Modell lernen, das diese Funktion nicht verwendet?

So intuitiv hätte ich erwartet, dass die Auswahl von Funktionen eine sinnlose Übung ist, die niemals hilft und manchmal weh tun kann. Aber die Tatsache, dass es so weit verbreitet ist und darüber geschrieben wird, lässt mich vermuten, dass meine Intuition fehlerhaft ist. Kann jemand eine Vorstellung davon geben, warum die Auswahl von Funktionen beim überwachten Lernen nützlich und wichtig ist? Warum verbessert es die Leistung des maschinellen Lernens? Kommt es darauf an, welchen Klassifikator ich benutze?

DW
quelle

Antworten:

10

Ihre Intuition ist ganz richtig. In den meisten Situationen stellt die Merkmalsauswahl den Wunsch nach einer einfachen Erklärung dar, die sich aus drei Missverständnissen ergibt:

  1. Der Analyst erkennt nicht, dass der Satz "ausgewählter" Merkmale ziemlich instabil, dh nicht robust ist, und dass der Auswahlprozess, wenn er für einen anderen Datensatz durchgeführt wird, zu einem ganz anderen Satz von Merkmalen führt. Die Daten besitzen häufig nicht den Informationsgehalt, der zur Auswahl der "richtigen" Funktionen erforderlich ist. Dieses Problem wird schlimmer, wenn Co-Linearitäten vorhanden sind.
  2. Wege, Mechanismen und Prozesse sind in unkontrollierten Experimenten komplex. menschliches Verhalten und Natur sind komplex und nicht sparsam.
  3. Die Vorhersagegenauigkeit wird beeinträchtigt, indem die Daten gebeten werden, Ihnen sowohl die wichtigen Merkmale als auch die Beziehungen zu diesen zu mitteilen Y.für die "wichtigen". Es ist besser, "ein wenig von jeder Variablen zu verwenden", als alle Variablen und keine für andere zu verwenden (dh Schrumpfung / Bestrafung zu verwenden).

Einige Möglichkeiten, dies zu studieren:

  1. Machen Sie mehr Vergleiche der Vorhersagegenauigkeit zwischen dem Lasso , elastischen Netz und einer quadratischen Standardstrafe durch (Gratregression).
  2. Bootstrap-Variablen mit variabler Wichtigkeit werden aus einer zufälligen Gesamtstruktur gemessen und ihre Stabilität überprüft
  3. Berechnen Sie die Bootstrap-Konfidenzintervalle für die Ränge potenzieller Features, z. B. für die Ränge der Teilmerkmale χ2 Assoziationstests (oder Dinge wie univariater Spearman ρ oder Somers ' D.xy) und stellen Sie fest, dass diese Konfidenzintervalle extrem groß sind und Sie direkt über die Schwierigkeit der Aufgabe informieren. Meine von http://biostat.mc.vanderbilt.edu/rms verlinkten Kursnotizen enthalten ein Beispiel für die Rangfolge der Bootstrapping-Rangfolge von Prädiktoren mit OLS.

All dies gilt sowohl für die Klassifizierung als auch für das allgemeinere und nützlichere Konzept der Vorhersage.

Frank Harrell
quelle