Ich versuche, ein LASSO-Modell für die Vorhersage zu verwenden, und ich muss Standardfehler abschätzen. Sicher hat schon jemand ein Paket dazu geschrieben. Aber meines Erachtens gibt keines der CRAN-Pakete, die mit einem LASSO Vorhersagen treffen, Standardfehler für diese Vorhersagen zurück.
Meine Frage lautet also: Gibt es ein Paket oder einen R-Code, um Standardfehler für LASSO-Vorhersagen zu berechnen?
r
standard-error
prediction
lasso
Rob Hyndman
quelle
quelle
monomvn
, siehe meine Antwort unten.Antworten:
Kyung et al. (2010), "Bestrafte Regression, Standardfehler und Bayes'sche Lassos", Bayes'sche Analyse, 5 , 2 , legen nahe, dass es möglicherweise keinen Konsens über eine statistisch gültige Methode zur Berechnung von Standardfehlern für die Lasso-Vorhersagen gibt. Tibshirani scheint zuzustimmen (Folie 43), dass Standardfehler immer noch ein ungelöstes Problem sind.
quelle
In einem verwandten Punkt, der hilfreich sein könnte, haben Tibshirani und Kollegen einen Signifikanztest für das Lasso vorgeschlagen. Das Papier ist verfügbar und trägt den Titel "Ein Signifikanztest für das Lasso". Eine kostenlose Version des Papiers finden Sie hier
quelle
Die Antwort von Sandipan Karmakar sagt Ihnen, was Sie tun sollen. Dies sollte Ihnen beim "Wie" helfen:
[...]
quelle
Das Bayes'sche LASSO ist die einzige Alternative zum Problem der Berechnung von Standardfehlern. Standardfehler werden in Bayesian LASSO automatisch berechnet ... Sie können Bayesian LASSO sehr einfach mit dem Gibbs-Sampling-Schema implementieren ...
Bayesian LASSO benötigt vorherige Verteilungen, um den Parametern des Modells zugeordnet zu werden. Im LASSO-Modell haben wir die Zielfunktion mit als Regularisierungsparameter. Da wir hier für haben, wird hierfür eine spezielle Art der Vorverteilung benötigt, LAPLACE-Verteilung eine Skalenmischung der Normalverteilung mit Exponentialverteilung als Mischungsdichte. Ausgehend von den vollständigen bedingten posterioren Parametern sind die einzelnen Parameter abzuleiten.||y−Xβ||22+λ||β||1 λ ℓ1 β
Dann kann man Gibbs Sampling verwenden, um die Kette zu simulieren. Siehe Park & Cassella (2008), "The Bayesian Lasso", JASA , 103 , 482 .
Es gibt drei inhärente Nachteile des frequentistischen LASSO:
Man muss durch Kreuzvalidierung oder andere Mittel auswählen .λ
Standardfehler sind schwierig zu berechnen, da das LARS und andere Algorithmen Punktschätzungen für erstellen .β
Die hierarchische Struktur des vorliegenden Problems kann nicht mithilfe eines frequentistischen Modells codiert werden, das im Bayes'schen Rahmen recht einfach ist.
quelle
Um die obigen Antworten zu ergänzen, scheint das Problem zu sein, dass sogar ein Bootstrap wahrscheinlich unzureichend ist, da die Schätzung des bestraften Modells verzerrt ist und das Bootstrapping nur die Varianz anspricht - wobei die Verzerrung der Schätzung ignoriert wird. Dies ist schön in der Vignette für das Strafpaket auf Seite 18 zusammengefasst .
Wenn dies jedoch für die Vorhersage verwendet wird, warum ist dann ein Standardfehler aus dem Modell erforderlich? Können Sie Validierung oder Bootstrap nicht ordnungsgemäß kreuzen und einen Standardfehler um eine Metrik herum erzeugen, die sich auf Vorhersagen wie MSE bezieht?
quelle
Es gibt das selectiveInference-Paket in R, https://cran.r-project.org/web/packages/selectiveInference/index.html , das Konfidenzintervalle und p-Werte für Ihre vom LASSO angepassten Koeffizienten auf der Grundlage des folgenden Papiers bereitstellt :
Stephen Reid, Jerome Friedman und Rob Tibshirani (2014). Eine Studie zur Schätzung der Fehlervarianz bei der Lasso-Regression. arXiv: 1311,5274
PS: nur erkennen , dass diese Fehlerschätzungen für Ihre Parameter, nicht sicher für den Fehler auf der endgültigen Vorhersage erzeugt, wenn das , was Sie nach ... Ich nehme an, Sie verwenden könnte „Bevölkerungsprognoseintervalle“ für Sie , dass (wie durch Resampling-Parameter entsprechend der Anpassung nach einer multivariaten Normalverteilung).
quelle