Bestrafte Regressionsschätzer wie LASSO und Ridge sollen Bayes'schen Schätzern mit bestimmten Prioritäten entsprechen. Ich vermute (da ich nicht genug über Bayes'sche Statistiken weiß), dass für einen festen Abstimmungsparameter ein konkreter entsprechender Prior existiert.
Nun würde ein Frequentist den Abstimmungsparameter durch Kreuzvalidierung optimieren. Gibt es ein bayesianisches Äquivalent dazu und wird es überhaupt verwendet? Oder korrigiert der Bayes'sche Ansatz den Abstimmungsparameter effektiv, bevor die Daten angezeigt werden? (Ich denke, Letzteres würde die prädiktive Leistung beeinträchtigen.)
bayesian
lasso
ridge-regression
Richard Hardy
quelle
quelle
Antworten:
Ja, das ist richtig. Wenn wir ein Optimierungsproblem haben, das die Maximierung der Log-Likelihood-Funktion plus eine Straffunktion für die Parameter beinhaltet, ist dies mathematisch äquivalent zur posterioren Maximierung, wobei die Straffunktion als Logarithmus eines früheren Kernels angenommen wird. Um dies zu sehen, nehmen wir an, wir haben eine Straffunktion , die einen Abstimmparameter . Die Zielfunktion in diesen Fällen kann wie folgt geschrieben werden:† w λ
wobei wir das vorherigeπ(θ|λ)∝exp(−w(θ|λ)) . Beachten Sie hierbei, dass der Optimierungsparameter in der vorherigen Verteilung als fester Hyperparameter behandelt wird. Wenn Sie eine klassische Optimierung mit einem festen Optimierungsparameter durchführen, entspricht dies einer Bayes-Optimierung mit einem festen Hyperparameter. Für die LASSO- und Ridge-Regression sind die Straffunktionen und die entsprechenden Prioritätsäquivalente:
Das erstere Verfahren bestraft die Regressionskoeffizienten gemäß ihrer absoluten Größe, was dem Auferlegen eines Laplace-Priorums bei Null entspricht. Die letztere Methode bestraft die Regressionskoeffizienten gemäß ihrer quadratischen Größe, was dem Auferlegen eines normalen Prioritätswerts bei Null entspricht.
Solange die frequentistische Methode als Optimierungsproblem gestellt werden kann (anstatt etwa einen Hypothesentest oder ähnliches zu beinhalten), wird es eine Bayes'sche Analogie geben, die ein äquivalentes Prior verwendet. Ebenso wie die Frequentisten den Abstimmungsparameterλ als unbekannt behandeln und dies aus den Daten abschätzen, kann der Bayes'sche den Hyperparameter λ ähnliche Weise als unbekannt behandeln. In einer vollständigen Bayes'schen Analyse würde dies bedeuten, dem Hyperparameter eine eigene Priorität zuzuweisen und das hintere Maximum unter dieser Priorität zu finden, was der Maximierung der folgenden Zielfunktion analog wäre:
Diese Methode wird in der Bayes'schen Analyse in der Tat verwendet, wenn der Analytiker einen bestimmten Hyperparameter für seine Prioritäten nicht bequem auswählen kann und versucht, die Prioritäten weiter zu verbreiten, indem sie als unbekannt behandelt und verteilt werden. (Beachten Sie, dass dies nur eine implizite Möglichkeit ist, vor dem interessierenden Parameterθ eine diffusere Angabe zu machen .)
Bevor auf dieK fache Kreuzvalidierung eingegangen wird, ist zunächst anzumerken, dass das Maximum a posteriori (MAP) -Verfahren mathematisch einfach eine Optimierung einer Funktion des Parameters θ und der Daten x . Wenn Sie bereit sind, unzulässige Prioritäten zuzulassen, kapselt der Gültigkeitsbereich alle Optimierungsprobleme, die eine Funktion dieser Variablen betreffen. Somit weist jede frequentistische Methode, die als einzelnes Optimierungsproblem dieser Art gerahmt werden kann, eine MAP-Analogie auf, und jede frequentistische Methode, die nicht als einzelne Optimierung dieser Art gerahmt werden kann, weist keine MAP-Analogie auf.
In der obigen Modellform, die eine Straffunktion mit einem Abstimmungsparameter beinhaltet, wird üblicherweise eineK fache Kreuzvalidierung verwendet, um den Abstimmungsparameter λ abzuschätzen . Für diese Methode Sie den Datenvektor partitionieren x in K Teilvektoren x1,...,xK . Für jede der Untervektor k=1,...,K Sie passen das Modell mit den "Trainings" -Daten x−k und messen dann die Anpassung des Modells mit den "Test" -Daten xk . In jeder Anpassung erhalten Sie einen Schätzer für die Modellparameter, der Ihnen Vorhersagen der Testdaten liefert, die dann mit den tatsächlichen Testdaten verglichen werden können, um ein Maß für den "Verlust" zu erhalten:
Die Verlustmaße für jede derK "Falten" können dann aggregiert werden, um ein Gesamtverlustmaß für die Kreuzvalidierung zu erhalten:
Man schätzt dann den Abstimmungsparameter durch Minimieren des Gesamtverlustmaßes:
From the above analysis we can see that it is possible to form a MAP analogy to the model-fitting andK -fold cross-validation process. This is not an exact analogy, but it is a close analogy, up to arbitrarily accuracy. It is also important to note that the MAP analogy no longer shares the same likelihood function as the original problem, since the loss function depends on the data and is thus absorbed as part of the likelihood rather than the prior. In fact, the full analogy is as follows:
whereL∗x(θ,λ)∝exp(ℓx(θ)−δL(x,λ)) and π(θ,λ)∝exp(−w(θ|λ)) , with a fixed (and very large) hyper-parameter δ .
quelle
Indeed most penalized regression methods correspond to placing a particular type of prior to the regression coefficients. For example, you get the LASSO using a Laplace prior, and the ridge using a normal prior. The tuning parameters are the “hyperparameters” under the Bayesian formulation for which you can place an additional prior to estimate them; for example, for in the case of the ridge it is often assumed that the inverse variance of the normal distribution has aχ2 prior. However, as one would expect, resulting inferences can be sensitive to the choice of the prior distributions for these hyperparameters. For example, for the horseshoe prior there are some theoretical results that you should place such a prior for the hyperparameters that it would reflect the number of non-zero coefficients you expect to have.
A nice overview of the links between penalized regression and Bayesian priors is given, for example, by Mallick and Yi.
quelle