Inferenz nach Verwendung von Lasso zur Variablenauswahl

Ich verwende Lasso für die Merkmalsauswahl in einer relativ niedrigen Maßeinstellung (n >> p). Nach dem Anpassen eines Lasso-Modells möchte ich die Kovariaten mit Koeffizienten ungleich Null verwenden, um ein Modell ohne Abzug anzupassen. Ich mache das, weil ich unvoreingenommene Schätzungen haben möchte, die Lasso mir nicht geben kann. Ich hätte auch gerne p-Werte und Konfidenzintervalle für die unvoreingenommene Schätzung.

Ich habe Probleme, Literatur zu diesem Thema zu finden. Die meiste Literatur, die ich finde, handelt davon, Konfidenzintervalle auf die Lasso-Schätzungen zu setzen, nicht auf ein überarbeitetes Modell.

Nach dem, was ich gelesen habe, führt das einfache Umrüsten eines Modells mit dem gesamten Datensatz zu unrealistisch kleinen p-Werten / Standardfehlern. Momentan scheint das Aufteilen von Stichproben (im Stil von Wasserman und Roeder (2014) oder Meinshausen et al. (2009)) eine gute Vorgehensweise zu sein, aber ich suche nach weiteren Vorschlägen.

Hat jemand dieses Problem festgestellt? Wenn ja, könnten Sie bitte einige Vorschläge machen.

regression feature-selection lasso unbiased-estimator EliK
quelle

Ich verstehe nicht, warum es eine Rolle spielen sollte, wenn der Lasso-Schätzer voreingenommen ist, solange die Konfidenzintervalle (zumindest asymptotisch) die richtige Abdeckung haben. Ist dies der einzige Grund, warum Sie OLS-Schätzungen auf die vom Lasso wiedererlangte Unterstützung abstellen möchten?

user795305

Vielleicht habe ich falsch verstanden, was ich gelesen habe, aber bezieht sich die asymptotisch korrekte Abdeckung nicht auf eine voreingenommene Schätzung, nicht auf die wahre spärliche, aber unvoreingenommene Schätzung?

EliK

Ich bin mir nicht sicher, was Sie unter "wahrer, spärlicher, aber unvoreingenommener" Schätzung verstehen, aber wenn Sie wissen, dass die Lasso-Schätzungen Konfidenzintervalle mit asymptotisch korrekter Abdeckung aufweisen, sollte nicht mehr zu tun sein. Der Artikel, der gerade von Greenparker (+1) verlinkt wurde, ist wirklich interessant (und der neueste, den ich zu diesem Thema kenne) und erörtert (teilweise), wie Sie asymptotisch korrekte Konfidenzintervalle für die Lassokoeffizienten entwickeln können. Ich möchte darauf hinweisen, dass Sie OLS nicht anpassen müssen, um unverfälschte Koeffizienten zu erhalten, da Unverfälschtheit keine Rolle spielt.

user795305

Ich glaube, ich habe falsch verstanden. Die asymptotisch korrekte Abdeckung, auf die Sie sich beziehen, bezieht sich auf den wahren Parameter. Also, obwohl Lasso voreingenommene Koeffizienten angibt, können wir Konfidenzintervalle konstruieren, die die richtige Abdeckung für den wahren Parameter haben?

EliK

Da Sie ein Modell ausgewählt haben, haben Sie keine unbasierten Schätzungen, wenn Sie ohne Lasso schätzen. Die Koeffizienten der Terme im Modell nach der Auswahl von Variablen und anschließendem Anpassen über OLS werden tatsächlich von 0 weg vorgespannt (wie bei anderen Formen der Variablenauswahl). Eine geringe Schrumpfung kann die Vorspannung tatsächlich verringern.

Glen_b -Reinstate Monica

Antworten:

Zu den vorherigen Antworten hinzufügen. Schauen Sie sich unbedingt die neuesten Arbeiten von Tibshirani und Kollegen an. Sie haben ein strenges Gerüst entwickelt, aus dem selektionskorrigierte p-Werte und Konfidenzintervalle für Lasso-Methoden abgeleitet werden können, und liefern auch ein R-Paket.

Sehen:

Lee, Jason D. et al. "Genaue Schlußfolgerung nach der Auswahl mit Anwendung auf das Lasso." The Annals of Statistics 44.3 (2016): 907-927. ( https://projecteuclid.org/euclid.aos/1460381681 )

Taylor, Jonathan und Robert J. Tibshirani. "Statistisches Lernen und selektive Schlussfolgerung." Verfahren der National Academy of Sciences 112.25 (2015): 7629-7634.

R-Paket:

https://cran.r-project.org/web/packages/selectiveInference/index.html

B.Schubert
quelle

In der Regel wird das erneute Anpassen ohne Abzug nach erfolgter Variablenauswahl mit dem Lasso als "Betrug" angesehen, da Sie sich die Daten bereits angesehen haben und die resultierenden p-Werte und Konfidenzintervalle nicht im üblichen Sinne gültig sind.

$p$

Die Menge der vom Lasso ausgewählten Variablen ist deterministisch und mit hoher Wahrscheinlichkeit nicht datenabhängig.

Ein zweimaliger Blick auf die Daten ist somit kein Problem. Sie müssen feststellen, ob für Ihr Problem die im Artikel angegebenen Bedingungen zutreffen oder nicht.

(Es gibt auch viele nützliche Hinweise in der Arbeit)

Referenz:

Zhao, S., Shojaie, A. & Witten, D. (2017). Zur Verteidigung des Unhaltbaren: Eine sehr naive Herangehensweise an hochdimensionale Folgerungen. Abgerufen von: https://arxiv.org/pdf/1705.05543.pdf

Greenparker
quelle

+1 Es ist jedoch erwähnenswert, dass die Autoren ihren Ansatz ausdrücklich nicht empfehlen, außer "bei sehr großen Datenmengen": "Wir raten nicht dazu, den oben beschriebenen ... Ansatz bei den meisten praktischen Datenanalyseeinstellungen anzuwenden: Wir sind zuversichtlich dass in der Praxis ... dieser Ansatz schlecht funktioniert, wenn die Stichprobengröße klein oder moderat ist und / oder die Annahmen nicht erfüllt werden "(auf S. 27). Für das Protokoll sind dies Zhao, Shojaie und Witten, In Defense of the Indefensible: Ein sehr naiver Ansatz zur hochdimensionalen Inferenz (16. Mai 2017).

Whuber

@whuber Und denken Sie auch daran, dass dieses Papier auf arxiv.org ist - nicht sicher, ob es von Fachleuten begutachtet wurde, sodass es möglicherweise andere Probleme mit der Methodik des Autors gibt.

RobertF

Ich wollte einige Artikel aus der Literatur zum orthogonalen / doppelten maschinellen Lernen hinzufügen, die in der Literatur zur angewandten Ökonometrie immer beliebter wird.

Belloni, Alexandre, Victor Chernozhukov und Christian Hansen. "Rückschluss auf Behandlungseffekte nach Auswahl unter hochdimensionalen Kontrollen." The Review of Economic Studies 81.2 (2014): 608-650.

Dieser Artikel befasst sich mit den theoretischen Eigenschaften einer OLS-Schätzung der Auswirkung einer Variablen nach Auswahl der "anderen" Steuerelemente mit LASSO.
Victor Chernozhukov, Denis Chetverikov, Esther Duflo, Whitney Newey, Christian Hansen, The Econometrics Journal, Band 21, Ausgabe 1, 1. Februar 2018, Seiten C1 – C68 , https://doi.org/10.1111/ectj.12097

Dies entwickelt die umfassende Theorie für die Verwendung einer Reihe von nicht parametrischen Methoden (ML-Algorithmen) zur nichtlinearen Steuerung eines hochdimensionalen Störparameters (Confounder) und zur Untersuchung der Auswirkung einer bestimmten Kovariate auf das Ergebnis. Sie befassen sich mit teillinearen und vollständig parametrischen Gerüsten. Sie berücksichtigen auch Situationen, in denen die interessierende Variable verwechselt wird.

FightMilk
quelle