Bayes-Regression: Wie wird sie im Vergleich zur Standard-Regression durchgeführt?

57

Ich habe einige Fragen zur Bayes'schen Regression:

  1. Bei einer Standardregression als y=β0+β1x+ε . Wenn ich dies in eine Bayes'sche Regression umwandeln möchte, benötige ich vorherige Verteilungen sowohl für β0 als auch für β1 (oder funktioniert das nicht so)?

  2. In der Standardregression würde man versuchen, die Residuen zu minimieren, um einzelne Werte für β0 und β1 . Wie geschieht dies bei der Bayes-Regression?


Ich habe hier wirklich viel zu kämpfen:

posterior=prior×likelihood

Die Wahrscheinlichkeit stammt aus dem aktuellen Datensatz (also ist es mein Regressionsparameter, aber nicht als Einzelwert, sondern als Wahrscheinlichkeitsverteilung, oder?). Prior stammt aus einer früheren Forschung (sagen wir mal). Also habe ich diese Gleichung:

y=β1x+ε

mit β1 ist meine Wahrscheinlichkeit oder nachträglich (oder ist das einfach total falsch)?

Ich kann einfach nicht verstehen, wie sich die Standard-Regression in eine Bayes-Regression verwandelt.

TinglTanglBob
quelle

Antworten:

93

Einfaches lineares Regressionsmodell

yi=α+βxi+ε

kann als probabilistisches Modell dahinter geschrieben werden

μi=α+βxiyiN(μi,σ)

dh die abhängige Variable folgt einer Normalverteilung, die durch den Mittelwert μ i parametrisiert ist, dh eine lineare Funktion von X, die durch α , β und durch die Standardabweichung σ parametrisiert ist . Wenn Sie ein solches Modell mit gewöhnlichen kleinsten Quadraten schätzen , müssen Sie sich nicht um die probabilistische Formulierung kümmern, da Sie nach optimalen Werten für α , β- Parameter suchen , indem Sie die Fehlerquadrate der angepassten Werte auf die vorhergesagten Werte minimieren. Auf der anderen Seite könnten Sie ein solches Modell unter Verwendung der Maximum-Likelihood-Schätzung schätzenYμiXα,βσα,β, wo Sie nach optimalen Werten für Parameter suchen würden, indem Sie die Wahrscheinlichkeitsfunktion maximieren

argmaxα,β,σi=1nN(yi;α+βxi,σ)

wobei eine Dichtefunktion der Normalverteilung ist, die an y i -Punkten ausgewertet wird und mit α + β x i und der Standardabweichung σ parametrisiert wird .Nyiα+βxiσ

Beim Bayes'schen Ansatz würden wir, anstatt nur die Wahrscheinlichkeitsfunktion zu maximieren, vorherige Verteilungen für die Parameter annehmen und den Bayes'schen Satz verwenden

posteriorlikelihood×vor

Die Wahrscheinlichkeitsfunktion ist die gleiche wie oben, aber was sich ändert, ist, dass Sie einige vorherige Verteilungen für die geschätzten Parameter annehmen und diese in die Gleichung einbeziehenα,β,σ

f(α,β,σY,X)posteriori=1nN(yiα+βxi,σ)likelihoodfα(α)fβ(β)fσ(σ)priors

"Welche Distributionen?" ist eine andere Frage, da es eine unbegrenzte Anzahl von Möglichkeiten gibt. Für - Parameter könnten Sie zum Beispiel Normalverteilungen annehmen von einigen parametrisiert Hyper oder t -Verteilung , wenn Sie schwereren Schwanz zu übernehmen wollen, oder eine gleichmäßige Verteilung , wenn Sie nicht viel Annahmen machen wollen, aber Sie wollen davon ausgehen , dass die Parameter können a priori "irgendetwas in dem gegebenen Bereich" sein usw. Für σ müssen Sie eine vorherige Verteilung annehmen , die begrenzt ist, um größer als Null zu sein, da die Standardabweichung positiv sein muss. Dies kann zu der Modellformulierung führen, wie sie nachstehend von John K. Kruschke dargestellt wird.α,βtσ

Bayes'sche lineare Regressionsmodellformulierung

(Quelle: http://www.indiana.edu/~kruschke/BMLR/ )

Während Sie höchstwahrscheinlich nach einem einzigen optimalen Wert für jeden der Parameter gesucht haben, erhalten Sie beim Bayes'schen Ansatz durch Anwendung des Bayes'schen Theorems die posteriore Verteilung der Parameter. Die endgültige Schätzung hängt von den Informationen ab, die aus Ihren Daten und von Ihren Vorgesetzten stammen . Je mehr Informationen in Ihren Daten enthalten sind, desto weniger Einfluss haben Vorgesetzte .

Beachten Sie, dass bei Verwendung von einheitlichen Prioren diese nach dem Löschen der Normalisierungskonstanten die Form annehmen . Dies macht den Bayes-Satz proportional zur Likelihood-Funktion, sodass die posteriore Verteilung genau zum gleichen Zeitpunkt wie die Maximum-Likelihood-Schätzung ihr Maximum erreicht. Was folgt, ist die Schätzung unter einheitlichen Prioritäten dieselbe wie unter Verwendung gewöhnlicher kleinster Quadrate, da das Minimieren der quadratischen Fehler dem Maximieren der normalen Wahrscheinlichkeit entspricht .f(θ)1

Um ein Modell im Bayes'schen Ansatz abzuschätzen, können Sie in einigen Fällen konjugierte Priors verwenden , sodass die posteriore Verteilung direkt verfügbar ist (siehe Beispiel hier ). In den allermeisten Fällen ist die posteriore Verteilung jedoch nicht direkt verfügbar, und Sie müssen zur Schätzung des Modells die Markov-Chain-Monte-Carlo- Methoden verwenden (siehe dieses Beispiel für die Verwendung des Metropolis-Hastings-Algorithmus zur Schätzung der Parameter der linearen Regression). Schließlich, wenn Sie nur an Punktschätzungen von Parametern interessiert sind, könnten Sie maximal eine nachträgliche Schätzung verwenden , d. H

argmaxα,β,σf(α,β,σY,X)

Für eine detailliertere Beschreibung der logistischen Regression können Sie das Bayesianische Logit-Modell überprüfen - intuitive Erklärung? Faden.

Weitere Informationen finden Sie in den folgenden Büchern:

Kruschke, J. (2014). Bayesianische Datenanalyse: Ein Tutorial mit R, JAGS und Stan. Akademische Presse.

Gelman, A., Carlin, JB, Stern, HS und Rubin, DB (2004). Bayesianische Datenanalyse. Chapman & Hall / CRC.

Tim
quelle
2
+1 In Anbetracht der Art und Weise, in der die Frage gestellt wird, möchte ich diesen philosophischen Unterschied vielleicht noch ein wenig hervorheben: Bei der Schätzung der kleinsten Quadrate und der maximalen Wahrscheinlichkeit beginnen wir mit der Frage "Was sind die besten Werte für (vielleicht für später) verwenden)?" βi, während wir im vollständigen Bayes'schen Ansatz mit der Frage beginnen "Was können wir über die unbekannten Werte sagen ?" βiund dann vielleicht mit dem Maximum a posteriori oder dem posterioren Mittelwert fortfahren, wenn eine Punktschätzung erforderlich ist.
JiK
2
+1. Eine weitere Sache, die nützlich sein könnte, um die Beziehung zwischen Bayes'schen und OLS-Ansätzen zu verdeutlichen, ist, dass OLS als hinterer Mittelwert unter einem flachen Prior verstanden werden kann (zumindest soweit ich das verstehe). Wäre toll, wenn Sie dies in Ihrer Antwort etwas näher erläutern könnten.
Amöbe sagt Reinstate Monica
@amoeba es ist ein guter Punkt, ich werde darüber nachdenken. Auf der anderen Seite möchte ich die Antwort nicht zu lange halten, daher ist es wichtig, auf Details einzugehen.
Tim
1
@amoeba FYI, dazu habe ich einen kurzen Kommentar hinzugefügt.
Tim
22

Gegeben sei ein Datensatz , wo x R d , y R , ein Bayessches Linear Regression modelliert das Problem auf folgende Weise:D=(x1,y1),,(xN,yN)xRd,yR

Prior:

wN(0,σw2Id)

w(w1,,wd)TIdd×d

YiN(wTxi,σ2)

YiYj|w,ij

Im Moment verwenden wir die Genauigkeit anstelle der Varianz a=1/σ2b=1/σw2a,b

p(w)exp{b2wtw}

p(D|w)exp{a2(yAw)T(yAw)}

wobei y=(y1,,yN)TEINn×dXichT

p(w|D)p(D|w)p(w)

Nach vielen Berechnungen entdecken wir das

p(w|D)N(w|μ,Λ-1)

Λ

Λ=einEINTEIN+bichd
μ=einΛ-1EINTy

μwMEINP

μΛ=einEINTEIN+bichd

μ=(EINTEIN+beinichd)-1EINTy

wMLE

wMLE=(ATA)1ATy

μλ=ba

Für die prädiktive posteriore Verteilung:

p(y|x,D)=p(y|x,D,w)p(w|x,D)dw=p(y|x,w)p(w|D)dw

es ist möglich, das zu berechnen

y|x,DN(μTx,1a+xTΛ1x)

Referenz: Lunn et al. Das BUGS-Buch

Wenn Sie ein MCMC-Tool wie JAGS / Stan verwenden möchten, lesen Sie Kruschkes Doing Bayesian Data Analysis

jpneto
quelle
Vielen Dank, jpneto. Ich denke, dass dies eine großartige Antwort ist, aber ich verstehe es noch nicht, weil es an mathematischen Kenntnissen mangelt. Aber ich werde es definitiv wieder lesen, nachdem ich einige mathematische Fähigkeiten erworben habe
TinglTanglBob
1
Das ist sehr schön, aber die Annahme, dass die Präzision bekannt ist, ist etwas ungewöhnlich. Ist es nicht viel üblicher, eine inverse Gamma-Verteilung für die Varianz anzunehmen, dh eine Gamma-Verteilung für die Präzision?
DeltaIV
w
wN(0,λ1Id)λ
1
@ DeltaIV: Sicher, wenn wir Unsicherheiten über einen Parameter haben, können wir dies mit einem Prior modellieren. Die Annahme bekannter Präzision besteht darin, die Suche nach einer analytischen Lösung zu vereinfachen. Normalerweise sind diese analytischen Lösungen nicht möglich und wir müssen Näherungswerte wie MCMC oder eine Variationstechnik verwenden.
Jpneto