Ich verwende Lasso für die Merkmalsauswahl in einer relativ niedrigen Maßeinstellung (n >> p). Nach dem Anpassen eines Lasso-Modells möchte ich die Kovariaten mit Koeffizienten ungleich Null verwenden, um ein Modell ohne Abzug anzupassen. Ich mache das, weil ich unvoreingenommene Schätzungen haben möchte, die Lasso mir nicht geben kann. Ich hätte auch gerne p-Werte und Konfidenzintervalle für die unvoreingenommene Schätzung.
Ich habe Probleme, Literatur zu diesem Thema zu finden. Die meiste Literatur, die ich finde, handelt davon, Konfidenzintervalle auf die Lasso-Schätzungen zu setzen, nicht auf ein überarbeitetes Modell.
Nach dem, was ich gelesen habe, führt das einfache Umrüsten eines Modells mit dem gesamten Datensatz zu unrealistisch kleinen p-Werten / Standardfehlern. Momentan scheint das Aufteilen von Stichproben (im Stil von Wasserman und Roeder (2014) oder Meinshausen et al. (2009)) eine gute Vorgehensweise zu sein, aber ich suche nach weiteren Vorschlägen.
Hat jemand dieses Problem festgestellt? Wenn ja, könnten Sie bitte einige Vorschläge machen.
Antworten:
Zu den vorherigen Antworten hinzufügen. Schauen Sie sich unbedingt die neuesten Arbeiten von Tibshirani und Kollegen an. Sie haben ein strenges Gerüst entwickelt, aus dem selektionskorrigierte p-Werte und Konfidenzintervalle für Lasso-Methoden abgeleitet werden können, und liefern auch ein R-Paket.
Sehen:
Lee, Jason D. et al. "Genaue Schlußfolgerung nach der Auswahl mit Anwendung auf das Lasso." The Annals of Statistics 44.3 (2016): 907-927. ( https://projecteuclid.org/euclid.aos/1460381681 )
Taylor, Jonathan und Robert J. Tibshirani. "Statistisches Lernen und selektive Schlussfolgerung." Verfahren der National Academy of Sciences 112.25 (2015): 7629-7634.
R-Paket:
https://cran.r-project.org/web/packages/selectiveInference/index.html
quelle
In der Regel wird das erneute Anpassen ohne Abzug nach erfolgter Variablenauswahl mit dem Lasso als "Betrug" angesehen, da Sie sich die Daten bereits angesehen haben und die resultierenden p-Werte und Konfidenzintervalle nicht im üblichen Sinne gültig sind.
Ein zweimaliger Blick auf die Daten ist somit kein Problem. Sie müssen feststellen, ob für Ihr Problem die im Artikel angegebenen Bedingungen zutreffen oder nicht.
(Es gibt auch viele nützliche Hinweise in der Arbeit)
Referenz:
Zhao, S., Shojaie, A. & Witten, D. (2017). Zur Verteidigung des Unhaltbaren: Eine sehr naive Herangehensweise an hochdimensionale Folgerungen. Abgerufen von: https://arxiv.org/pdf/1705.05543.pdf
quelle
Ich wollte einige Artikel aus der Literatur zum orthogonalen / doppelten maschinellen Lernen hinzufügen, die in der Literatur zur angewandten Ökonometrie immer beliebter wird.
Belloni, Alexandre, Victor Chernozhukov und Christian Hansen. "Rückschluss auf Behandlungseffekte nach Auswahl unter hochdimensionalen Kontrollen." The Review of Economic Studies 81.2 (2014): 608-650.
Dieser Artikel befasst sich mit den theoretischen Eigenschaften einer OLS-Schätzung der Auswirkung einer Variablen nach Auswahl der "anderen" Steuerelemente mit LASSO.
Victor Chernozhukov, Denis Chetverikov, Esther Duflo, Whitney Newey, Christian Hansen, The Econometrics Journal, Band 21, Ausgabe 1, 1. Februar 2018, Seiten C1 – C68 , https://doi.org/10.1111/ectj.12097
Dies entwickelt die umfassende Theorie für die Verwendung einer Reihe von nicht parametrischen Methoden (ML-Algorithmen) zur nichtlinearen Steuerung eines hochdimensionalen Störparameters (Confounder) und zur Untersuchung der Auswirkung einer bestimmten Kovariate auf das Ergebnis. Sie befassen sich mit teillinearen und vollständig parametrischen Gerüsten. Sie berücksichtigen auch Situationen, in denen die interessierende Variable verwechselt wird.
quelle