Optimale Elfmeterauswahl für Lasso

15

Gibt es analytische Ergebnisse oder experimentelle Arbeiten zur optimalen Wahl des Koeffizienten für den Strafzeitpunkt ? 1Mit optimal meine ich einen Parameter, der die Wahrscheinlichkeit der Auswahl des besten Modells maximiert oder den erwarteten Verlust minimiert. Ich frage, weil es oft unpraktisch ist, den Parameter durch Kreuzvalidierung oder Bootstrap zu wählen, entweder wegen einer großen Anzahl von Instanzen des Problems oder wegen der Größe des vorliegenden Problems. Das einzige positive Ergebnis, das mir bekannt ist, ist Candes and Plan, eine nahezu ideale Modellauswahl durch 1 Minimierung .

gappy
quelle
2
Kennen Sie Papiere, die Konsistenzergebnisse für das Lasso liefern? Knight & Fu (2000), Yu & Zhao (2006) und verschiedene Arbeiten von Meinshausen.
Kardinal
Ja, aber meine Frage betrifft nicht die asymptotische Konsistenz, die Gegenstand der von Ihnen erwähnten Arbeiten ist.
gappy
1
In diesen Beiträgen geht es (hauptsächlich) um die Konsistenz der Modellauswahl , was meiner Meinung nach sehr mit der von Ihnen gestellten Frage zusammenhängt. :)
Kardinal

Antworten:

2

Checkout-Satz 5.1 von Bickel et al. . Eine statistisch optimale Wahl im Hinblick auf den Fehler ist λ = A σ Rauschen yy^(λ)22 (mit hoher Wahrscheinlichkeit) für eine KonstanteA>2λ=Aσnoiselogpn .A>22

Dohmatob
quelle
Dies gilt nicht ganz scheint die Rechnung zu passen , da es erfordert zu wissen , . Genau dieses Problem motiviert das Quadratwurzellasso ( arxiv.org/pdf/1009.5689.pdf )σnoise
user795305
5

Ich gehe davon aus, dass Sie sich hauptsächlich für die Regression interessieren, wie in der zitierten Veröffentlichung, und nicht für andere Anwendungen der 1 -Penalität (etwa grafisches Lasso).

Ich glaube dann, dass einige Antworten in der Arbeit über die „Freiheitsgrade“ des Lassos von Zou et al. Zu finden sind. Kurz gesagt, es gibt eine analytische Formel für die effektiven Freiheitsgrade , die es Ihnen ermöglicht, CV für den quadratischen Fehlerverlust beispielsweise durch eine analytische -Statistik zu ersetzen .Cp

Ein weiterer Ort, um zu suchen, ist in der Dantzig-Selektor: Statistische Schätzung, wenn p viel größer als n ist, und die Diskussionspapiere in derselben Ausgabe von Annals of Statistics. Ich verstehe, dass sie ein Problem lösen, das eng mit der Lasso-Regression zusammenhängt, aber mit einer festen Wahl des Strafkoeffizienten. Schauen Sie sich aber auch die Diskussionspapiere an.

Wenn Sie nicht an Vorhersagen, sondern an der Modellauswahl interessiert sind, sind mir ähnliche Ergebnisse nicht bekannt. Optimale Vorhersagemodelle führen häufig zu zu vielen ausgewählten Variablen in Regressionsmodellen. In der Arbeit Stabilitätsauswahl stellen Meinshausen und Bühlmann eine Unterabtastungstechnik vor, die für die Modellauswahl nützlicher ist, für Ihre Anforderungen jedoch möglicherweise zu rechenintensiv ist.

NRH
quelle
(+1) Alle drei Artikel sind eine sorgfältige Lektüre wert für diejenigen, die sich für dieses Thema interessieren. Das Dantzig-Auswahlpapier hat einige sehr gute mathematische Eigenschaften. Ich habe jedoch nicht viel Traktion in Anwendungen gesehen, und ich erwarte auch nicht, dass dies der Fall ist. Ich denke unter anderem, dass die sehr lauten Regularisierungspfade die Leute nervös machen und es, ohne offensichtlichen Vorteil gegenüber dem Lasso, schwierig machen, es zu verkaufen.
Kardinal
Summen, beachten Sie, dass die Anzahl der Koeffizienten ungleich Null für einen gegebenen Wert des Regularisierungsparameters eine unvoreingenommene Schätzung für die DoFs bei diesem Wert ist, diese Schätzung jedoch eine extrem hohe Varianz aufweist.
Dohmatob
1

Seit diese Frage gestellt wurde, wurden interessante Fortschritte erzielt. Betrachten Sie zum Beispiel dieses Papier

Chichignoud, M., Lederer, J. & Wainwright, M. (2016). Ein praktisches Schema und ein schneller Algorithmus, um das Lasso mit Optimalitätsgarantien abzustimmen. Journal of Machine Learning Research, 17, 1–17.

Sie schlagen eine Methode zur Auswahl des LASSO-Abstimmungsparameters mit nachweislichen Stichprobengarantien für die Modellauswahl vor. In dem Artikel heißt es: "Für Standardkalibrierungsschemata, darunter die Kreuzvalidierung, gibt es in der Literatur keine vergleichbaren Garantien. Tatsächlich sind uns keine Garantien für endliche Stichproben für Standardkalibrierungsschemata bekannt."

user795305
quelle
0

Dies beantwortet Ihre Frage nicht, aber: In einer Umgebung mit großen Datenmengen ist es möglicherweise in Ordnung, den Regularizer mit einem einzelnen Zug / Test-Split abzustimmen, anstatt ihn etwa zehnmal in einer Kreuzvalidierung (oder mehr für Bootstrap) durchzuführen. Die Größe und Repräsentativität der für den Devset ausgewählten Stichprobe bestimmt die Genauigkeit der Schätzung des optimalen Regularisierers.

Meiner Erfahrung nach ist der durchgehaltene Verlust über einen beträchtlichen Regularizer-Bereich relativ flach. Ich bin sicher, dass diese Tatsache für andere Probleme nicht gelten kann.

Brendan OConnor
quelle