Geben Sie zunächst sorgfältig an, was Sie unter "den wichtigsten Funktionen" in einem Datensatz verstehen . Auf dieser Seite finden Sie verschiedene Perspektiven zu diesem Thema. Beispielsweise können Funktionen erforderlich sein, die einzeln als "unwichtig" eingestuft werden, um Vorhersagen auf der Grundlage anderer Funktionen zu verbessern, sodass Sie sie möglicherweise nicht wegwerfen möchten.
Was LASSO gut macht, ist eine prinzipielle Möglichkeit, die Anzahl der Features in einem Modell zu reduzieren. Im Gegensatz dazu weist die automatisierte Merkmalsauswahl auf der Grundlage einer standardmäßigen linearen Regression durch schrittweise Auswahl oder Auswahl von Merkmalen mit den niedrigsten p- Werten viele Nachteile auf . Vorteile von LASSO gegenüber anderen Regressionsbasierte Ansätze sind speziell beschrieben hier . LASSO beinhaltet einen Straffaktor, der bestimmt, wie viele Funktionen beibehalten werden. Durch die Verwendung der Kreuzvalidierung zur Auswahl des Straffaktors wird sichergestellt, dass das Modell gut auf zukünftige Datenstichproben verallgemeinert werden kann.
Die Ridge-Regression versucht nicht, Merkmale auszuwählen, sondern verwendet stattdessen eine Strafe, die auf die Summe der Quadrate aller Regressionskoeffizienten angewendet wird. Auch hier hilft die Wahl der Strafe durch Kreuzvalidierung, die Verallgemeinerung sicherzustellen. Das elastische Netz kann als Hybrid aus LASSO mit Grat betrachtet werden. Auf dieser Seite finden Sie Einzelheiten zu den Unterschieden zwischen diesen bestraften Methoden. Wenn Ihr Hauptinteresse in der Vorhersage liegt und das Sammeln von Informationen zu allen Features nicht zu teuer ist, müssen Sie möglicherweise überhaupt keine Feature-Auswahl durchführen und stattdessen die Ridge-Regression verwenden, um Informationen zu allen Prädiktoren im Modell zu speichern.
Wenn Sie aus praktischen Gründen die Anzahl der Prädiktoren reduzieren müssen, ist LASSO eine gute Wahl. Sie erhalten jedoch nur einen nützlichen Satz ausgewählter Prädiktoren, die im allgemeinen Sinne nicht unbedingt die wichtigsten sind. Wenn Merkmale korreliert sind, wählt LASSO das eine oder andere basierend auf seiner Leistung in der jeweiligen Datenprobe aus. Mit einem anderen Beispiel könnte es durchaus ein anderes Merkmal aus einer Reihe korrelierter Merkmale auswählen. Dies wirkt sich normalerweise nicht auf die Vorhersageleistung des LASSO-Modells aus, gibt jedoch eine Pause darüber, was unter "den wichtigsten Funktionen" zu verstehen ist. Auf dieser Seite finden Sie Erläuterungen zu solchen Instabilitäten bei der LASSO-Modellierung.