Warum Lasso für die Funktionsauswahl?

9

Angenommen, ich habe einen hochdimensionalen Datensatz und möchte eine Feature-Auswahl durchführen. Eine Möglichkeit besteht darin, ein Modell zu trainieren, das die wichtigsten Merkmale in diesem Datensatz identifizieren kann, und dieses zu verwenden, um die am wenigsten wichtigen wegzuwerfen.

In der Praxis würde ich dafür den SelectFromModel- Transformator von sklearn verwenden . Gemäß der Dokumentation würde jeder Schätzer mit einem feature_importances_oder einem coef_Attribut ausreichen.

Neben Lasso haben viele andere lineare Modelle dieses Attribut ( LinearRegression , Ridge und ElasticNet, um nur einige zu nennen) und können zur Identifizierung der wichtigsten Merkmale verwendet werden.

Was macht Lasso zum beliebtesten Modell zur Identifizierung der wichtigsten Merkmale in einem Datensatz?

JkBk
quelle

Antworten:

9

Geben Sie zunächst sorgfältig an, was Sie unter "den wichtigsten Funktionen" in einem Datensatz verstehen . Auf dieser Seite finden Sie verschiedene Perspektiven zu diesem Thema. Beispielsweise können Funktionen erforderlich sein, die einzeln als "unwichtig" eingestuft werden, um Vorhersagen auf der Grundlage anderer Funktionen zu verbessern, sodass Sie sie möglicherweise nicht wegwerfen möchten.

Was LASSO gut macht, ist eine prinzipielle Möglichkeit, die Anzahl der Features in einem Modell zu reduzieren. Im Gegensatz dazu weist die automatisierte Merkmalsauswahl auf der Grundlage einer standardmäßigen linearen Regression durch schrittweise Auswahl oder Auswahl von Merkmalen mit den niedrigsten p- Werten viele Nachteile auf . Vorteile von LASSO gegenüber anderen Regressionsbasierte Ansätze sind speziell beschrieben hier . LASSO beinhaltet einen Straffaktor, der bestimmt, wie viele Funktionen beibehalten werden. Durch die Verwendung der Kreuzvalidierung zur Auswahl des Straffaktors wird sichergestellt, dass das Modell gut auf zukünftige Datenstichproben verallgemeinert werden kann.

Die Ridge-Regression versucht nicht, Merkmale auszuwählen, sondern verwendet stattdessen eine Strafe, die auf die Summe der Quadrate aller Regressionskoeffizienten angewendet wird. Auch hier hilft die Wahl der Strafe durch Kreuzvalidierung, die Verallgemeinerung sicherzustellen. Das elastische Netz kann als Hybrid aus LASSO mit Grat betrachtet werden. Auf dieser Seite finden Sie Einzelheiten zu den Unterschieden zwischen diesen bestraften Methoden. Wenn Ihr Hauptinteresse in der Vorhersage liegt und das Sammeln von Informationen zu allen Features nicht zu teuer ist, müssen Sie möglicherweise überhaupt keine Feature-Auswahl durchführen und stattdessen die Ridge-Regression verwenden, um Informationen zu allen Prädiktoren im Modell zu speichern.

Wenn Sie aus praktischen Gründen die Anzahl der Prädiktoren reduzieren müssen, ist LASSO eine gute Wahl. Sie erhalten jedoch nur einen nützlichen Satz ausgewählter Prädiktoren, die im allgemeinen Sinne nicht unbedingt die wichtigsten sind. Wenn Merkmale korreliert sind, wählt LASSO das eine oder andere basierend auf seiner Leistung in der jeweiligen Datenprobe aus. Mit einem anderen Beispiel könnte es durchaus ein anderes Merkmal aus einer Reihe korrelierter Merkmale auswählen. Dies wirkt sich normalerweise nicht auf die Vorhersageleistung des LASSO-Modells aus, gibt jedoch eine Pause darüber, was unter "den wichtigsten Funktionen" zu verstehen ist. Auf dieser Seite finden Sie Erläuterungen zu solchen Instabilitäten bei der LASSO-Modellierung.

EdM
quelle