In meiner maschinellen Lernen Klasse haben wir gelernt , wie ist LASSO Regression sehr gut Merkmalsauswahl durchführen, da es die Verwendung von macht Regularisierung.
Meine Frage: Verwenden Benutzer das LASSO-Modell normalerweise nur zur Funktionsauswahl (und speichern diese Funktionen dann in einem anderen Modell für maschinelles Lernen) oder verwenden sie normalerweise LASSO, um sowohl die Funktionsauswahl als auch die tatsächliche Regression durchzuführen?
Angenommen, Sie möchten eine Gratregression durchführen, glauben jedoch, dass viele Ihrer Funktionen nicht sehr gut sind. Wäre es ratsam, LASSO auszuführen, nur die Funktionen zu verwenden, die vom Algorithmus nicht nahezu auf Null gesetzt werden, und dann nur diejenigen zu verwenden, um Ihre Daten in ein Ridge-Regressionsmodell zu übertragen? Auf diese Weise erhalten Sie den Vorteil einer Regularisierung für die Durchführung der Merkmalsauswahl, aber auch den Vorteil einer l 2 -Regulierung zur Reduzierung der Überanpassung. (Ich weiß, dass dies im Grunde genommen eine elastische Netzregression darstellt, aber es scheint, dass Sie nicht beide Terme l 1 und l 2 in der endgültigen Regressionszielfunktion haben müssen.)
Ist dies, abgesehen von der Regression, eine kluge Strategie bei der Durchführung von Klassifizierungsaufgaben (unter Verwendung von SVMs, neuronalen Netzen, zufälligen Wäldern usw.)?
Antworten:
Fast jeder Ansatz, der irgendeine Form der Modellauswahl durchführt und dann weitere Analysen durchführt, als ob zuvor keine Modellauswahl stattgefunden hätte, weist typischerweise schlechte Anteile auf. Sofern es keine überzeugenden theoretischen Argumente gibt, die durch Beweise aus z. B. umfangreichen Simulationsstudien für realistische Stichprobengrößen und Verhältnisse von Merkmal zu Stichprobengröße gestützt werden, um zu zeigen, dass dies eine Ausnahme darstellt, ist es wahrscheinlich, dass ein solcher Ansatz unbefriedigende Eigenschaften aufweist. Mir sind keine derart positiven Beweise für diesen Ansatz bekannt, aber vielleicht ist es jemand anderes. Angesichts der Tatsache, dass es vernünftige Alternativen gibt, mit denen alle gewünschten Ziele erreicht werden (z. B. das elastische Netz), ist es schwierig, diesen Ansatz zu rechtfertigen, stattdessen einen solchen verdächtigen Ad-hoc-Ansatz zu verwenden.
quelle
Neben all den obigen Antworten: Es ist möglich, einen exakten Chi2-Permutationstest für 2x2- und RXC-Tabellen zu berechnen. Anstatt unseren beobachteten Wert der Chi-Quadrat-Statistik mit einer asymptotischen Chi-Quadrat-Verteilung zu vergleichen, müssen wir ihn mit der exakten Permutationsverteilung vergleichen. Wir müssen unsere Daten auf alle möglichen Arten permutieren und die Zeilen- und Spaltenränder konstant halten. Für jeden permutierten Datensatz haben wir die Chi2-Statistik berechnet. Wir vergleichen dann unser beobachtetes Chi2 mit der (sortierten) Chi2-Statistik. Die Rangfolge der realen Teststatistik unter den permutierten Chi2-Teststatistiken ergibt einen p-Wert.
quelle