Verwenden von LASSO nur zur Funktionsauswahl

10

In meiner maschinellen Lernen Klasse haben wir gelernt , wie ist LASSO Regression sehr gut Merkmalsauswahl durchführen, da es die Verwendung von macht Regularisierung.l1

Meine Frage: Verwenden Benutzer das LASSO-Modell normalerweise nur zur Funktionsauswahl (und speichern diese Funktionen dann in einem anderen Modell für maschinelles Lernen) oder verwenden sie normalerweise LASSO, um sowohl die Funktionsauswahl als auch die tatsächliche Regression durchzuführen?

Angenommen, Sie möchten eine Gratregression durchführen, glauben jedoch, dass viele Ihrer Funktionen nicht sehr gut sind. Wäre es ratsam, LASSO auszuführen, nur die Funktionen zu verwenden, die vom Algorithmus nicht nahezu auf Null gesetzt werden, und dann nur diejenigen zu verwenden, um Ihre Daten in ein Ridge-Regressionsmodell zu übertragen? Auf diese Weise erhalten Sie den Vorteil einer Regularisierung für die Durchführung der Merkmalsauswahl, aber auch den Vorteil einer l 2 -Regulierung zur Reduzierung der Überanpassung. (Ich weiß, dass dies im Grunde genommen eine elastische Netzregression darstellt, aber es scheint, dass Sie nicht beide Terme l 1 und l 2 in der endgültigen Regressionszielfunktion haben müssen.)l1l2l1l2

Ist dies, abgesehen von der Regression, eine kluge Strategie bei der Durchführung von Klassifizierungsaufgaben (unter Verwendung von SVMs, neuronalen Netzen, zufälligen Wäldern usw.)?

Ryan
quelle
1
Ja, die Verwendung von Lasso für die Funktionsauswahl für andere Modelle ist eine gute Idee. Alternativ könnte die Auswahl von baumbasierten Features auch anderen Modellen zugeführt werden
karthikbharadwaj
1
Das Lasso führt die Merkmalsauswahl nur in linearen Modellen durch - es testet nicht auf Interaktionen höherer Ordnung oder Nichtlinearität in den Prädiktoren. Ein Beispiel dafür, wie wichtig dies sein könnte: stats.stackexchange.com/questions/164048/… Ihr Kilometerstand kann variieren.
Sycorax sagt Reinstate Monica

Antworten:

11

Fast jeder Ansatz, der irgendeine Form der Modellauswahl durchführt und dann weitere Analysen durchführt, als ob zuvor keine Modellauswahl stattgefunden hätte, weist typischerweise schlechte Anteile auf. Sofern es keine überzeugenden theoretischen Argumente gibt, die durch Beweise aus z. B. umfangreichen Simulationsstudien für realistische Stichprobengrößen und Verhältnisse von Merkmal zu Stichprobengröße gestützt werden, um zu zeigen, dass dies eine Ausnahme darstellt, ist es wahrscheinlich, dass ein solcher Ansatz unbefriedigende Eigenschaften aufweist. Mir sind keine derart positiven Beweise für diesen Ansatz bekannt, aber vielleicht ist es jemand anderes. Angesichts der Tatsache, dass es vernünftige Alternativen gibt, mit denen alle gewünschten Ziele erreicht werden (z. B. das elastische Netz), ist es schwierig, diesen Ansatz zu rechtfertigen, stattdessen einen solchen verdächtigen Ad-hoc-Ansatz zu verwenden.

Björn
quelle
3
vereinbart .... der Punkt ist, dass alles in ein Kreuzvalidierungs-Framework passen muss ... Sie sollten also eine verschachtelte Kreuzvalidierung durchführen, um die beiden getrennten Regularisierungen durchzuführen (andernfalls treten Probleme auf), und für die verschachtelte Kreuzvalidierung werden weniger Daten verwendet jeder Teil.
Seanv507
1

Neben all den obigen Antworten: Es ist möglich, einen exakten Chi2-Permutationstest für 2x2- und RXC-Tabellen zu berechnen. Anstatt unseren beobachteten Wert der Chi-Quadrat-Statistik mit einer asymptotischen Chi-Quadrat-Verteilung zu vergleichen, müssen wir ihn mit der exakten Permutationsverteilung vergleichen. Wir müssen unsere Daten auf alle möglichen Arten permutieren und die Zeilen- und Spaltenränder konstant halten. Für jeden permutierten Datensatz haben wir die Chi2-Statistik berechnet. Wir vergleichen dann unser beobachtetes Chi2 mit der (sortierten) Chi2-Statistik. Die Rangfolge der realen Teststatistik unter den permutierten Chi2-Teststatistiken ergibt einen p-Wert.

Stats_Monkey
quelle
Könnten Sie Ihrer Antwort bitte Details hinzufügen? In der jetzigen Form ist nicht klar, wie man den exakten Chi2-Test berechnen würde.
Antoine Vernet