Gibt es analytische Ergebnisse oder experimentelle Arbeiten zur optimalen Wahl des Koeffizienten für den Strafzeitpunkt ? Mit optimal meine ich einen Parameter, der die Wahrscheinlichkeit der Auswahl des besten Modells maximiert oder den erwarteten Verlust minimiert. Ich frage, weil es oft unpraktisch ist, den Parameter durch Kreuzvalidierung oder Bootstrap zu wählen, entweder wegen einer großen Anzahl von Instanzen des Problems oder wegen der Größe des vorliegenden Problems. Das einzige positive Ergebnis, das mir bekannt ist, ist Candes and Plan, eine nahezu ideale Modellauswahl durch Minimierung .
model-selection
lasso
shrinkage
gappy
quelle
quelle
Antworten:
Checkout-Satz 5.1 von Bickel et al. . Eine statistisch optimale Wahl im Hinblick auf den Fehler ist λ = A σ Rauschen √∥y−y^(λ)∥22 (mit hoher Wahrscheinlichkeit) für eine KonstanteA>2λ=Aσnoiselogpn−−−−−√ .A>22–√
quelle
Ich gehe davon aus, dass Sie sich hauptsächlich für die Regression interessieren, wie in der zitierten Veröffentlichung, und nicht für andere Anwendungen derℓ1 -Penalität (etwa grafisches Lasso).
Ich glaube dann, dass einige Antworten in der Arbeit über die „Freiheitsgrade“ des Lassos von Zou et al. Zu finden sind. Kurz gesagt, es gibt eine analytische Formel für die effektiven Freiheitsgrade , die es Ihnen ermöglicht, CV für den quadratischen Fehlerverlust beispielsweise durch eine analytische -Statistik zu ersetzen .Cp
Ein weiterer Ort, um zu suchen, ist in der Dantzig-Selektor: Statistische Schätzung, wenn p viel größer als n ist, und die Diskussionspapiere in derselben Ausgabe von Annals of Statistics. Ich verstehe, dass sie ein Problem lösen, das eng mit der Lasso-Regression zusammenhängt, aber mit einer festen Wahl des Strafkoeffizienten. Schauen Sie sich aber auch die Diskussionspapiere an.
Wenn Sie nicht an Vorhersagen, sondern an der Modellauswahl interessiert sind, sind mir ähnliche Ergebnisse nicht bekannt. Optimale Vorhersagemodelle führen häufig zu zu vielen ausgewählten Variablen in Regressionsmodellen. In der Arbeit Stabilitätsauswahl stellen Meinshausen und Bühlmann eine Unterabtastungstechnik vor, die für die Modellauswahl nützlicher ist, für Ihre Anforderungen jedoch möglicherweise zu rechenintensiv ist.
quelle
Seit diese Frage gestellt wurde, wurden interessante Fortschritte erzielt. Betrachten Sie zum Beispiel dieses Papier
Sie schlagen eine Methode zur Auswahl des LASSO-Abstimmungsparameters mit nachweislichen Stichprobengarantien für die Modellauswahl vor. In dem Artikel heißt es: "Für Standardkalibrierungsschemata, darunter die Kreuzvalidierung, gibt es in der Literatur keine vergleichbaren Garantien. Tatsächlich sind uns keine Garantien für endliche Stichproben für Standardkalibrierungsschemata bekannt."
quelle
Dies beantwortet Ihre Frage nicht, aber: In einer Umgebung mit großen Datenmengen ist es möglicherweise in Ordnung, den Regularizer mit einem einzelnen Zug / Test-Split abzustimmen, anstatt ihn etwa zehnmal in einer Kreuzvalidierung (oder mehr für Bootstrap) durchzuführen. Die Größe und Repräsentativität der für den Devset ausgewählten Stichprobe bestimmt die Genauigkeit der Schätzung des optimalen Regularisierers.
Meiner Erfahrung nach ist der durchgehaltene Verlust über einen beträchtlichen Regularizer-Bereich relativ flach. Ich bin sicher, dass diese Tatsache für andere Probleme nicht gelten kann.
quelle