Kürzlich habe ich festgestellt, dass es in der angewandten ökonometrischen Literatur nicht ungewöhnlich ist, LASSO durchzuführen, gefolgt von einer OLS-Regression unter Verwendung der ausgewählten Variablen.
Ich habe mich gefragt, wie wir die Gültigkeit eines solchen Verfahrens beurteilen können. Wird es Probleme wie ausgelassene Variablen verursachen? Gibt es Beweise dafür, dass es effizienter ist oder die Ergebnisse besser interpretierbar sind?
Hier sind einige verwandte Diskussionen:
Verwenden von Bäumen nach der Variablenauswahl mit Lasso / Random
Wenn ein solches Vorgehen, wie bereits erwähnt, im Allgemeinen nicht korrekt ist, warum gibt es dann immer noch so viele Forschungen? Kann ich sagen, dass es nur eine Faustregel ist, eine Kompromisslösung, aufgrund einiger der unangenehmen Eigenschaften von LASSO Estimator und der Vorliebe der Menschen für OLS?
Antworten:
Vor einigen Tagen gab es eine ähnliche Frage mit der entsprechenden Referenz:
Zumindest für mich ist das Papier eine ziemlich schwierige Lektüre, da die Beweise hinter diesem relativ einfachen Dokument ziemlich aufwändig sind. Wenn Sie ein Modell wie schätzen
wobei Ihr Ergebnis ist, interessierender Behandlungseffekt ist und ein Vektor potenzieller Kontrollen ist. Der Zielparameter ist . Unter der Annahme, dass der größte Teil der Variation in Ihrem Outcome durch die Behandlung und eine spärliche Reihe von Kontrollen erklärt wird, haben Belloni et al. (2014) entwickeln eine doppelt robuste Auswahlmethode, die korrekte Punktschätzungen und gültige Konfidenzintervalle liefert. Diese Sparsity-Annahme ist jedoch wichtig.T i X i αyich Tich Xich α
Wenn einige wichtige Prädiktoren für , Sie jedoch nicht wissen, um welche es sich handelt (entweder einzelne Variablen, ihre Polynome höherer Ordnung oder Wechselwirkungen mit anderen Variablen), können Sie eine Auswahlprozedur in drei Schritten durchführen:y iXich yich
Sie liefern Beweise, warum dies funktioniert und warum Sie mit dieser Methode die richtigen Konfidenzintervalle usw. erhalten. Sie zeigen auch, dass Sie falsche Punktschätzungen und falsche Konfidenzintervalle erhalten, wenn Sie nur eine LASSO-Auswahl für die oben genannte Regression durchführen und dann das Ergebnis für die Behandlung und die ausgewählten Variablen regressieren, wie Björn bereits sagte.
Dies hat zwei Gründe: Wenn Sie Ihr ursprüngliches Modell, bei dem die Variablenauswahl von Intuition oder Theorie geleitet wurde, mit dem doppelt robusten Auswahlmodell vergleichen, erhalten Sie eine Vorstellung davon, wie gut Ihr erstes Modell war. Vielleicht hat Ihr erstes Modell einige wichtige Quadrat- oder Interaktionsterme vergessen und leidet daher unter einer falsch spezifizierten funktionalen Form oder ausgelassenen Variablen. Zweitens haben die Patentschriften von Belloni et al. (2014) -Methode kann die Inferenz auf Ihren Zielparameter verbessern, da redundante Regressoren in ihrem Verfahren bestraft wurden.
quelle
Das Durchführen einer Variablenauswahl und anschließenden erneuten Durchführen einer Analyse, als ob keine Variablenauswahl stattgefunden hätte und das ausgewählte Modell von Anfang an beabsichtigt gewesen wäre, führt in der Regel zu übertriebenen Effektgrößen, ungültigen p-Werten und Konfidenzintervallen mit geringerer nominaler Abdeckung. Wenn die Stichprobe sehr groß ist und es einige große Effekte und viele Null-Effekte gibt, ist LASSO + OLS möglicherweise nicht allzu stark davon betroffen, aber ansonsten sehe ich keine vernünftige Rechtfertigung und in diesem Fall auch nicht das LASSO Schätzungen sollten auch in Ordnung sein.
quelle