Beziehung zwischen MLE und kleinsten Quadraten bei linearer Regression

9

Hastie und Tibshirani erwähnen in Abschnitt 4.3.2 ihres Buches, dass in der linearen Regressionseinstellung der Ansatz der kleinsten Quadrate tatsächlich ein Sonderfall mit maximaler Wahrscheinlichkeit ist. Wie können wir dieses Ergebnis beweisen?

PS: Ersparen Sie keine mathematischen Details.

Pradnyesh Joshi
quelle
2
Es ist kein Sonderfall: Sie sind nur dann identisch, wenn die Fehlerverteilung normal ist.
Zhanxiong

Antworten:

13

Das lineare Regressionsmodell

Y=Xβ+ϵ , wobeiϵN(0,Iσ2)

YRn , undXRn×pβRp

Beachten Sie, dass unser Modellfehler (Residuum) . Unser Ziel ist es, einen Vektor von s zu finden, der die Norm im Quadrat dieses Fehlers minimiert .ϵ=YXββL2

Kleinsten Quadrate

Gegeben Daten , wo jeder ist dimensional, suchen wir zu finden:(x1,y1),...,(xn,yn)xip

β^LS=argminβ||ϵ||2=argminβ||YXβ||2=argminβi=1n(yixiβ)2

Maximale Wahrscheinlichkeit

Mit dem obigen Modell können wir die Wahrscheinlichkeit der Daten unter Berücksichtigung der Parameter wie folgt einstellen :β

L(Y|X,β)=i=1nf(yi|xi,β)

Dabei ist das PDF einer Normalverteilung mit Mittelwert 0 und Varianz . Einstecken:f(yi|xi,β)σ2

L(Y|X,β)=i=1n12πσ2e(yixiβ)22σ2

Im Allgemeinen ist es im Umgang mit Wahrscheinlichkeiten mathematisch einfacher, das Protokoll zu erstellen, bevor Sie fortfahren (Produkte werden zu Summen, Exponentiale verschwinden).

logL(Y|X,β)=i=1nlog(12πσ2)(yixiβ)22σ2

Da wir die maximale Wahrscheinlichkeitsschätzung wollen, wollen wir das Maximum der obigen Gleichung in Bezug auf . Der erste Begriff hat keinen Einfluss auf unsere Schätzung von , daher können wir ihn ignorieren:ββ

β^MLE=argmaxβi=1n(yixiβ)22σ2

Beachten Sie, dass der Nenner eine Konstante in Bezug auf . Beachten Sie schließlich, dass vor der Summe ein negatives Vorzeichen steht. Das Maximum einer negativen Zahl zu finden ist also wie das Minimum ohne die negative zu finden. Mit anderen Worten:β

β^MLE=argminβi=1n(yixiβ)2=β^LS

Denken Sie daran, dass wir bestimmte Modellannahmen treffen mussten (Normalität der Fehlerterme, Mittelwert 0, konstante Varianz), damit dies funktioniert. Dies entspricht unter bestimmten Bedingungen den kleinsten Quadraten, die MLE entsprechen. Weitere Diskussionen finden Sie hier und hier .

Beachten Sie der Vollständigkeit halber, dass die Lösung wie folgt geschrieben werden kann:

β=(XTX)1XTy
ilanman
quelle