Ist die Bayesian Ridge Regression ein anderer Name der Bayesian Linear Regression?

11

Ich habe im Internet nach Bayesian Ridge Regression gesucht, aber das meiste Ergebnis, das ich erzielt habe, ist Bayesian Linear Regression. Ich frage mich, ob es beide die gleichen Dinge sind, weil die Formel ziemlich ähnlich aussieht

Thien
quelle

Antworten:

20

Die Ridge-Regression verwendet die Regularisierung mit der L.2 -Norm, während die Bayes'sche Regression ein Regressionsmodell ist, das probabilistisch definiert ist und explizite Prioritäten für die Parameter aufweist. Die Wahl der Prioritäten kann regulierend wirken, z. B. entspricht die Verwendung von Laplace-Prioritäten für Koeffizienten der L.1 -Regulierung . Sie sind nicht gleich, da die Gratregression eine Art Regressionsmodell ist und der Bayes'sche Ansatz eine allgemeine Methode zur Definition und Schätzung statistischer Modelle ist, die auf verschiedene Modelle angewendet werden können.

Das Ridge-Regressionsmodell ist definiert als

einrGmichnβy- -X.β22+λβ22

In der Bayes'schen Umgebung schätzen wir die posteriore Verteilung unter Verwendung des Bayes-Theorems

p(θ|X.)p(X.|θ)p(θ)

Ridge-Regression bedeutet, für die Parameter Normal Likelihood und Normal Prior anzunehmen. Nach dem Fallenlassen der Normalisierungskonstante ist die logarithmische Dichtefunktion der Normalverteilung

Logp(x|μ,σ)=Log[1σ2πe- -12(x- -μσ)2]]=Log[1σ2π]]+Log[e- -12(x- -μσ)2]]- -12(x- -μσ)2- -1σ2x- -μ22

Jetzt können Sie sehen, dass die Maximierung der normalen Log-Wahrscheinlichkeit mit normalen Priors gleichbedeutend mit der Minimierung des quadratischen Verlusts mit Ridge-Strafe ist

einrGmeinxβLogN.(y|X.β,σ)+LogN.(0,τ)=einrGmichnβ- -{LogN.(y|X.β,σ)+LogN.(0,τ)}}=einrGmichnβ1σ2y- -X.β22+1τ2β22

Weitere Informationen zur Ridge-Regression und -Regularisierung finden Sie in den Threads: Warum wird die Ridge-Schätzung durch Hinzufügen einer Konstanten zur Diagonale besser als OLS? , und Welches Problem lösen Schrumpfungsmethoden? und wann sollte ich lasso vs ridge verwenden? und Warum wird die Gratregression "Grat" genannt, warum wird sie benötigt und was passiert, wenn ins Unendliche geht? λund viele andere, die wir haben .

Tim
quelle
Danke für die Antwort ! Ich habe versucht zu verstehen, was die Vorteile der Norm sind. Die Erklärung zu Scikit ist für mich etwas kompliziert. Es wäre schön, wenn Sie auf das Problem mit normalen gewöhnlichen kleinsten Quadraten hinweisen könntenL.2
Thien
1
@ Thien sehen die Bearbeitung für einige Links
Tim