Auf dieser Website gibt es bereits einen Beitrag, der sich mit demselben Thema befasst: Warum funktioniert das Schrumpfen?
Aber obwohl die Antworten beliebt sind, glaube ich nicht, dass der Kern der Frage wirklich angesprochen wird. Es ist ziemlich klar, dass die Einführung einer gewissen Verzerrung der Schätzung zu einer Verringerung der Varianz führt und die Qualität der Schätzung verbessern kann. Jedoch:
1) Warum ist der Schaden, der durch das Einbringen von Voreingenommenheit verursacht wird, geringer als der Varianzgewinn?
2) Warum funktioniert es immer? Zum Beispiel im Fall der Ridge-Regression: der Existenzsatz
3) Was ist so interessant an 0 (dem Ursprung)? Natürlich können wir überall schrumpfen (zB Stein Estimator ), aber wird es so gut wie der Ursprung funktionieren?
4) Warum bevorzugen verschiedene universelle Codierungsschemata eine geringere Anzahl von Bits um den Ursprung herum? Sind diese Hypothesen einfach wahrscheinlicher?
Es werden Antworten mit Verweisen auf bewährte Theoreme oder etablierte Ergebnisse erwartet.
quelle
Antworten:
Es muss nicht, es ist nur in der Regel . Ob sich der Kompromiss lohnt, hängt von der Verlustfunktion ab. Aber die Dinge, die uns im wirklichen Leben interessieren, ähneln oft dem quadratischen Fehler (z. B. kümmern wir uns mehr um einen großen Fehler als um zwei Fehler, die halb so groß sind).
Als Gegenbeispiel - stellen Sie sich vor, dass wir die SAT-Werte für College-Zulassungen ein wenig in Richtung der mittleren SAT-Werte für die demografische Gruppe (wie auch immer definiert) senken. Wenn dies richtig gemacht wird, werden die Varianz und der mittlere Fehlerquadrat der Schätzungen der (irgendeiner Art von) Fähigkeit der Person reduziert, während eine Verzerrung eingeführt wird. Die meisten Leute würden meiner Meinung nach argumentieren, dass ein solcher Kompromiss nicht akzeptabel ist.
Ich denke, das liegt daran, dass wir normalerweise Koeffizienten oder Effektschätzungen verkleinern. Es gibt Gründe zu der Annahme, dass die meisten Effekte nicht groß sind (siehe z. B. Andrew Gelmans Einstellung ). Man kann sagen, dass eine Welt, in der alles alles stark beeinflusst, eine gewalttätige, unberechenbare Welt ist. Da unsere Welt so vorhersehbar ist, dass wir ein langes Leben führen und halbstabile Zivilisationen aufbauen können, sind die meisten Auswirkungen nicht groß.
Da die meisten Effekte nicht groß sind, ist es nützlich, die wenigen wirklich großen fälschlicherweise zu verkleinern und gleichzeitig die Lasten vernachlässigbarer Effekte richtig zu verkleinern.
Ich glaube, dies ist nur eine Eigenschaft unserer Welt, und Sie könnten wahrscheinlich selbstkonsistente Welten konstruieren, in denen das Schrumpfen nicht praktikabel ist (höchstwahrscheinlich, indem Sie den quadratischen Fehler zu einer unpraktischen Verlustfunktion machen). Es ist einfach nicht die Welt, in der wir leben.
Auf der anderen Seite gibt es Fälle, in denen das Schrumpfen als vorherige Verteilung in der Bayes'schen Analyse in der Praxis aktiv schädlich ist.
Ein Beispiel ist die Längenskala in Gaußschen Prozessen (bei denen 0 problematisch ist). In Stan's Handbuch wird empfohlen , eine Prioritätsstufe zu verwenden, die ein vernachlässigbares Gewicht nahe Null bringt, dh kleine Werte effektiv von Null "schrumpft". In ähnlicher Weise schrumpfen die empfohlenen Prioritäten für die Dispersion in der negativen Binomialverteilung effektiv von Null weg. Zu guter Letzt ist es immer dann sinnvoll, wenn die Normalverteilung (wie in INLA) genau parametrisiert wird, Inverse-Gamma-Verteilungen oder andere frühere Verteilungen zu verwenden, die von Null abweichen.
Nun, dies ist weit von meiner Tiefe entfernt, aber Wikipedia sagt, dass wir im universellen Kodierungsschema ( per Definition ) für alle positiven erwarten, so dass diese Eigenschaft eine einfache Konsequenz der Definition zu sein scheint und nicht im Zusammenhang mit Schrumpfung (oder fehle ich etwas?)P(i)≥P(i+1) i
quelle
Ridge, Lasso und elastisches Netz ähneln den Bayes'schen Methoden, wobei die Prioritäten auf Null zentriert sind - siehe zum Beispiel Statistical Learning with Sparsity von Hastie, Tibshirani und Wainwright, Abschnitt
2.9 Lq Penalties and Bayes Estimates
: "Es gibt auch eine Bayes'sche Sicht auf diese Schätzer. ... Dies bedeutet, dass die Lasso-Schätzung der Bayes'sche MAP-Schätzer (Maximum Aposteriori) ist, der einen Laplace-Prior verwendet. "Eine Möglichkeit zur Beantwortung Ihrer Frage (
what's so special about zero?
) besteht darin, dass die von uns geschätzten Effekte im Durchschnitt Null sind und in der Regel gering sind (dh unsere Prioritäten sollten um Null herum zentriert sein). Eine Schätzung der Schrumpfung gegen Null ist dann im Bayes'schen Sinne optimal, und Lasso und Rillen sowie elastische Netze können durch diese Linse betrachtet werden.quelle