Wie vergleichen sich Ridge-, LASSO- und Elasticnet-Regularisierungsmethoden? Was sind ihre jeweiligen Vor- und Nachteile? Gute technische Artikel oder Vorlesungsunterlagen sind ebenfalls willkommen.
Wie vergleichen sich Ridge-, LASSO- und Elasticnet-Regularisierungsmethoden? Was sind ihre jeweiligen Vor- und Nachteile? Gute technische Artikel oder Vorlesungsunterlagen sind ebenfalls willkommen.
Ist es möglich, AIC- oder BIC-Werte für Lasso-Regressionsmodelle und andere regulierte Modelle zu berechnen, bei denen Parameter nur teilweise in die Gleichung eingehen? Wie bestimmt man die Freiheitsgrade? Ich verwende R, um Lasso-Regressionsmodelle mit der glmnet()Funktion aus dem glmnetPaket zu...
Für das LASSO (und andere Modellauswahlverfahren) ist es entscheidend, die Prädiktoren neu zu skalieren. Die allgemeine Empfehlung, der ich folge, ist einfach, eine Normierung mit 0 Mittelwerten und 1 Standardabweichung für kontinuierliche Variablen zu verwenden. Aber was gibt es mit Dummies zu...
Hinweis: Ich weiß, dass L1 die Eigenschaft zur Featureauswahl hat. Ich versuche zu verstehen, welche ich wählen soll, wenn die Funktionsauswahl völlig irrelevant ist. Wie kann man entscheiden, welche Regularisierung (L1 oder L2) verwendet werden soll? Was sind die Vor- und Nachteile jeder L1 /...
Ich verwende die auto.arima () -Funktion im Vorhersagepaket , um ARMAX-Modelle mit einer Vielzahl von Kovariaten zu kombinieren. Ich habe jedoch oft eine große Anzahl von Variablen zur Auswahl und erhalte normalerweise ein endgültiges Modell, das mit einer Teilmenge von ihnen funktioniert. Ich mag...
Ich habe vor etwas wie LassoRegression drei Hauptgründe für die Standardisierung von Variablen gelesen : 1) Interpretierbarkeit von Koeffizienten. 2) Fähigkeit, die Wichtigkeit des Koeffizienten nach der relativen Größe der Schätzungen des Nachschrumpfungskoeffizienten zu ordnen. 3) Keine...
Das Lasso-Problem hat die geschlossene Form Lösung: \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS }} | - \ alpha) ^ + wenn X orthonormale Spalten hat. Dies wurde in diesem Thread gezeigt: Herleitung einer Lasso-Lösung in geschlossener Form...
Ich habe in einer Reihe von Referenzen gelesen, dass die Lasso-Schätzung für den Regressionsparametervektor dem posterioren Modus von in dem die vorherige Verteilung für jedes eine doppelte Exponentialverteilung ist (auch als Laplace-Verteilung bekannt).BBBBBBBiBiB_i Ich habe versucht, dies zu...
Wenn ich GAM verwende, erhalte ich einen DF-Rest von (letzte Zeile im Code). Was bedeutet das? Über das GAM-Beispiel hinausgehend: Kann die Anzahl der Freiheitsgrade im Allgemeinen eine nicht ganzzahlige Zahl sein?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call:...
Nehmen Sie für die Lasso-Regression dass die beste Lösung (zum Beispiel minimaler Testfehler) Merkmale auswählt . so dass .k β l a s s o = ( β l a s s o 1 , β l a s s O 2 , . . . , β l aL ( β) = ( Xβ- y)′(Xβ-y) + λ ∥
Ich habe einmal eine Methode gehört, das Lasso zweimal zu verwenden (wie ein Doppel-Lasso), bei der Sie Lasso für die ursprüngliche Menge von Variablen ausführen, z. B. S1, eine dünn besetzte Menge mit der Bezeichnung S2 erhalten und dann erneut Lasso für die Menge S2 ausführen, um die Menge S3 zu...
Die LASSO-Regression verringert die Koeffizienten auf Null und bietet so eine effektive Modellauswahl. Ich glaube, dass es in meinen Daten bedeutsame Wechselwirkungen zwischen nominalen und kontinuierlichen Kovariaten gibt. Nicht unbedingt sind jedoch die "Haupteffekte" des wahren Modells...
Daher wurde mir die Frage gestellt, welche zentralen Kennzahlen L1 (dh Lasso) und L2 (dh Gratregression) geschätzt wurden. Die Antwort lautet L1 = Median und L2 = Mittelwert. Gibt es irgendeine Art von intuitivem Denken dafür? Oder muss es algebraisch ermittelt werden? Wenn ja, wie mache ich...
Für Lasso stehen verschiedene Implementierungssoftware zur Verfügung . Ich kenne eine Menge Diskussionen über Bayes-Ansätze im Vergleich zu frequentistischen Ansätzen in verschiedenen Foren. Meine Frage ist sehr spezifisch für Lasso - Was sind die Unterschiede oder Vorteile von Bay-Lasso gegenüber...
Ich möchte die R-Pakete Larsund Glmnet, die zur Lösung des Lasso-Problems verwendet werden , besser verstehen : (für Variablen und Stichproben, siehe www.stanford.edu/~hastie/Papers/glmnet.pdf auf Seite 3)pm i n( β0β) ∈ Rp + 1[ 12 N∑i = 1N( yich- β0- xTichβ)2+ λ | | β|...
Einige und Approximationen sind gut untersucht, wie zum Beispiel der LASSO ( ) und der Ridge ( ) und wie diese in der Regression verglichen werden.L 2L1L1L_1L2L2L_2 Ich habe über die Brückenstrafe gelesen, die die verallgemeinerte Strafe ist. Vergleichen Sie das mit dem LASSO mit \ gamma = 1 und...
Ich benutze das R-Paket bestraft , um geschrumpfte Koeffizientenschätzungen für einen Datensatz zu erhalten, bei dem ich viele Prädiktoren und wenig Wissen darüber habe, welche wichtig sind. Gibt es, nachdem ich die Abstimmungsparameter L1 und L2 ausgewählt und mit meinen Koeffizienten zufrieden...
Wir alle kennen die in der Literatur gut dokumentierte Vorstellung, dass die LASSO-Optimierung (der Einfachheit halber hier auf den Fall der linearen Regression beschränkt) ist äquivalent zu dem linearen Modell mit Gaußschen Fehlern, bei dem die Parameter mit dem Laplace-Prioritätswert sind. , je...
Die bestrafte L1-Regression (auch bekannt als Lasso) wird in zwei Formulierungen dargestellt. Die beiden Zielfunktionen seien Dann sind die beiden unterschiedlichen Formulierungen ArgminβQ1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1.Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1. Q_1 = \frac{1}{2}||Y -...
Ich habe eine Frage zum Erfordernis, Merkmalsauswahlmethoden (Wichtigkeitswert für zufällige Gesamtstrukturen oder Auswahlmethoden für univariate Merkmale usw.) zu verwenden, bevor ein statistischer Lernalgorithmus ausgeführt wird. Wir wissen, dass wir Regularisierungsstrafen für die...