Lineare Regression: * Warum * können Sie Quadratsummen aufteilen?

9

Dieser Beitrag bezieht sich auf ein bivariates lineares Regressionsmodell, . Ich habe immer die Aufteilung der Gesamtsumme der Quadrate (SSTO) in die Summe der Quadrate für Fehler (SSE) und die Summe der Quadrate für das Modell (SSR) auf Glauben genommen, aber als ich anfing, wirklich darüber nachzudenken, verstehe ich nicht warum es funktioniert ...Yi=β0+β1xi

Der Teil I do verstehen:

yi : Ein beobachteter Wert von y

yiy¯ : Der Mittelwert aller beobachteten syi

y^i : Der angepasste / vorhergesagte Wert von y für das x einer gegebenen Beobachtung

yiy^i : Rest / Fehler (wenn quadriert und für alle Beobachtungen addiert, ist dies SSE)

y^iy¯ : Wie stark sich der Modellanpassungswert vom Mittelwert unterscheidet (wenn er für alle Beobachtungen quadriert und addiert wird, ist dies SSR).

yiy¯ : Wie stark sich ein beobachteter Wert vom Mittelwert unterscheidet (wenn er für alle Beobachtungen addiert und addiert wird, ist dies SSTO).

Ich kann verstehen, warum für eine einzelne Beobachtung, ohne etwas zu quadrieren, . Und ich kann verstehen, warum, wenn Sie Dinge über alle Beobachtungen addieren möchten, Sie sie quadrieren müssen, oder sie addieren sich zu 0.(yiy¯)=(y^iy¯)+(yiy^i)

Der Teil, den ich nicht verstehe, ist warum (zB SSTO = SSR + SSE). Es scheint, dass wenn Sie eine Situation haben, in der , dann , nicht . Warum ist das hier nicht der Fall? A = B + C A 2 = B 2 + 2 B C + C 2 A 2 = B 2 + C 2(yiy¯)2=(y^iy¯)2+(yiy^i)2A=B+CA2=B2+2BC+C2A2=B2+C2

Bluemouse
quelle
5
Sie haben die Summe in Ihrem letzten Absatz weggelassen. SST = SSR + SSE ist eine Summe über , aber Ihre Gleichheit, die Sie unmittelbar zuvor geschrieben haben, ist ohne das dortige Summationszeichen nicht wahr. i
Glen_b -Reinstate Monica
In Ihrem letzten Absatz möchten Sie (dh SSTO = SSR + SSE) nicht (z. B. SSTO = SSR + SSE). "eg" ist eine Abkürzung für die lateinische Phrase " exempli gratia " oder "zum Beispiel" im Englischen. "ie" ist eine Abkürzung für " id est " und kann auf Englisch als "das heißt" gelesen werden.
Matthew Gunn

Antworten:

9

Es scheint, dass wenn Sie eine Situation haben, in der , dann , nicht . Warum ist das hier nicht der Fall?A 2 = B 2 + 2 B C + C 2 A 2 = B 2 + C 2A=B+CA2=B2+2BC+C2A2=B2+C2

Konzeptionell ist die Idee, dass weil und orthogonal sind (dh senkrecht sind).B C.BC=0BC


Im Zusammenhang mit der linearen Regression sind die Residuen orthogonal zur erniedrigten Prognose . Die Vorhersage aus der linearen Regression erzeugt eine orthogonale Zerlegung von in einem ähnlichen Sinne wie eine orthogonale Zerlegung ist.y i - ˉ y y ( 3 , 4 ) = ( 3 , 0 ) + ( 0 , 4 )ϵi=yiy^iy^iy¯y(3,4)=(3,0)+(0,4)

Lineare Algebra-Version:

Lassen:

z=[y1y¯y2y¯yny¯]z^=[y^1y¯y^2y¯y^ny¯]ϵ=[y1y^1y2y^2yny^n]=zz^

Die lineare Regression (mit eingeschlossener Konstante) zerlegt in die Summe zweier Vektoren: eine Vorhersage und ein Residuumz εzz^ϵ

z=z^+ϵ

Lassen Sie bezeichnet das Punktprodukt . (Im Allgemeinen kann das innere Produkt .).,.X,Y E[XY]

z,z=z^+ϵ,z^+ϵ=z^,z^+2z^,ϵ+ϵ,ϵ=z^,z^+ϵ,ϵ

Wo die letzte Zeile aus der Tatsache folgt, dass (dh das und sind orthogonal). Sie können beweisen, dass und orthogonal sind, basierend darauf, wie die gewöhnliche Regression der kleinsten Quadrate konstruiert .z^,ϵ=0z^ϵ=zz^z^ϵz^

z^ ist die lineare Projektion von auf den Unterraum, der durch die lineare Spanne der Regressoren , usw. definiert ist Das verbleibende ist orthogonal zu diesem gesamten Unterraum, daher ist (das in der Spanne von , usw. liegt) orthogonal zu .zx1x2ϵz^x1x2ϵ


Beachten Sie, dass, wie ich als Punktprodukt definiert habe, ist einfach eine andere Schreibweise (dh SSTO = SSR + SSE).,.z,z=z^,z^+ϵ,ϵi(yiy¯)2=i(y^iy¯)2+i(yiy^i)2

Matthew Gunn
quelle
8

Der springende Punkt zeigt, dass bestimmte Vektoren orthogonal sind und dann den Satz von Pythagoras verwenden.

Betrachten wir die multivariate lineare Regression . Wir wissen, dass der OLS-Schätzer . Betrachten Sie nun die SchätzungY=Xβ+ϵβ^=(XtX)1XtY

Y^=Xβ^=X(XtX)1XtY=HY (H-Matrix wird auch als "Hut" -Matrix bezeichnet)

wobei eine orthogonale Projektionsmatrix von Y auf . Jetzt haben wirHS(X)

YY^=YHY=(IH)Y

wobei eine Projektionsmatrix auf das orthogonale Komplement von ist, das . Somit wissen wir, dass und orthogonal sind.(IH)S(X)S(X)YY^Y^

Betrachten Sie nun ein UntermodellY=X0β0+ϵ

wobei und ähnlich haben wir den OLS-Schätzer und schätzen und mit der Projektionsmatrix auf . In haben wir, dass und orthogonal sind. Und nunX=[X0|X1]β0^Y0^H0S(X0)YY0^Y0^

Y^Y0^=HYH0Y=HYH0HY=(IH0)HY

wobei wiederum eine orthogonale Projektionsmatrix auf das Komplement von ist, das . Wir haben also die Orthogonalität von und . Am Ende haben wir es also(IH0)S(X0)S(X0)Y^Y0^Y0^

||YY^||2=||Y||2||Y^||2=||YY0^||2+||Y0^||2||Y^Y0^||2||Y0^||2

und schließlich||YY0^||2=||YY^||2+||Y^Y0^||2

Schließlich ist der Mittelwert einfach der wenn das Nullmodell .^ Y 0 Y=β0+eY¯Y0^Y=β0+e

Łukasz Grad
quelle
Vielen Dank für Ihre Antwort! Was ist S () (wie in S (X) in Ihrem Beitrag)?
Bluemouse
X.S(X) ist ein Unterraum, der durch die Spalten der MatrixX
Łukasz Grad