Was sind einige der wichtigsten „frühen Arbeiten“ zu Regularisierungsmethoden?

10

In mehreren Antworten habe ich gesehen, dass CrossValidated-Benutzer OP vorschlagen, frühe Artikel über Lasso, Ridge und Elastic Net zu finden.

Was sind für die Nachwelt die wegweisenden Arbeiten zu Lasso, Ridge und Elastic Net?

Scott Skiles
quelle

Antworten:

11

Da Sie nur nach Referenzen suchen, finden Sie hier die Liste:

  1. Tichonow, Andrey Nikolajewitsch (1943). "Об устойчивости обратных задач" [Zur Stabilität inverser Probleme]. Doklady Akademii Nauk SSSR. 39 (5): 195–198.
  2. Tikhonov, AN (1963). "О решении некорректно поставленных задач и методе регуляризации". Doklady Akademii Nauk SSSR. 151: 501–504 .. Übersetzt in "Lösung falsch formulierter Probleme und der Regularisierungsmethode". Sowjetische Mathematik. 4: 1035–1038.
  3. Hoerl AE, 1962, Anwendung der Gratanalyse auf Regressionsprobleme, Chemical Engineering Progress, 1958, 54–59.
  4. Arthur E. Hoerl; Robert W. Kennard (1970). "Ridge Regression: Verzerrte Schätzung für nichtorthogonale Probleme". Technometrie. 12 (1): 55–67. doi: 10.2307 / 1267351. https://pdfs.semanticscholar.org/910e/d31ef5532dcbcf0bd01a980b1f79b9086fca.pdf
  5. Tibshirani, Robert (1996). "Regressionsschrumpfung und Auswahl über das Lasso" (PostScript). Zeitschrift der Royal Statistical Society, Reihe B. 58 (1): 267–288. MR 1379242 https://statweb.stanford.edu/~tibs/lasso/lasso.pdf
  6. Zou, H. und Hastie, T. (2005). Regularisierung und variable Auswahl über das elastische Netz. Zeitschrift der Royal Statistical Society, Reihe B. 67: S. 301–320. https://web.stanford.edu/~hastie/Papers/B67.2%20%282005%29%20301-320%20Zou%20&%20Hastie.pdf
Sandeep S. Sandhu
quelle
1

Ein historisch wichtiges Papier, von dem ich glaube, dass es zuerst gezeigt hat, dass Vorspannungsschätzer zu verbesserten Schätzungen für gewöhnliche lineare Modelle führen können:

  • Stein, C., 1956, Januar. Unzulässigkeit des üblichen Schätzers für den Mittelwert einer multivariaten Normalverteilung. In Proceedings of the Third Berkeley Symposium über mathematische Statistik und Wahrscheinlichkeit (Band 1, Nr. 399, S. 197-206).

Einige modernere und wichtigere Strafen sind SCAD und MCP:

  • Fan, J. und Li, R., 2001. Variable Auswahl über nicht konkave bestrafte Wahrscheinlichkeit und ihre Orakeleigenschaften. Journal of the American Statistical Association, 96 (456), S. 1348-1360.
  • Zhang, CH, 2010. Nahezu unvoreingenommene Variablenauswahl unter Minimax-Konkavstrafe. The Annals of Statistics, 38 (2), S. 894-942.

Und noch mehr zu sehr guten Algorithmen zum Erhalten von Schätzungen mit diesen Methoden:

  • Breheny, P. und Huang, J., 2011. Koordinieren Sie Abstiegsalgorithmen für die nicht konvexe bestrafte Regression mit Anwendungen für die Auswahl biologischer Merkmale. Die Annalen der angewandten Statistik, 5 (1), S.232.
  • Mazumder, R., Friedman, JH und Hastie, T., 2011. Sparsenet: Koordinieren Sie den Abstieg mit nicht konvexen Strafen. Journal of the American Statistical Association, 106 (495), S. 1125–1138.

Sehenswert ist auch dieses Papier über den Dantzig-Selektor, das sehr eng mit dem LASSO verwandt ist, aber (glaube ich) die Idee von Orakel-Ungleichungen für statistische Schätzer einführt, die eine ziemlich mächtige Idee sind

  • Candes, E. und Tao, T., 2007. Der Dantzig-Selektor: Statistische Schätzung, wenn p viel größer als n ist. The Annals of Statistics, S. 2313-2351.
dcl
quelle