Dieser Beitrag bezieht sich auf ein bivariates lineares Regressionsmodell, . Ich habe immer die Aufteilung der Gesamtsumme der Quadrate (SSTO) in die Summe der Quadrate für Fehler (SSE) und die Summe der Quadrate für das Modell (SSR) auf Glauben genommen, aber als ich anfing, wirklich darüber nachzudenken, verstehe ich nicht warum es funktioniert ...
Der Teil I do verstehen:
: Ein beobachteter Wert von y
yi : Der Mittelwert aller beobachteten s
: Der angepasste / vorhergesagte Wert von y für das x einer gegebenen Beobachtung
: Rest / Fehler (wenn quadriert und für alle Beobachtungen addiert, ist dies SSE)
: Wie stark sich der Modellanpassungswert vom Mittelwert unterscheidet (wenn er für alle Beobachtungen quadriert und addiert wird, ist dies SSR).
: Wie stark sich ein beobachteter Wert vom Mittelwert unterscheidet (wenn er für alle Beobachtungen addiert und addiert wird, ist dies SSTO).
Ich kann verstehen, warum für eine einzelne Beobachtung, ohne etwas zu quadrieren, . Und ich kann verstehen, warum, wenn Sie Dinge über alle Beobachtungen addieren möchten, Sie sie quadrieren müssen, oder sie addieren sich zu 0.
Der Teil, den ich nicht verstehe, ist warum (zB SSTO = SSR + SSE). Es scheint, dass wenn Sie eine Situation haben, in der , dann , nicht . Warum ist das hier nicht der Fall? A = B + C A 2 = B 2 + 2 B C + C 2 A 2 = B 2 + C 2
quelle
Antworten:
Konzeptionell ist die Idee, dass weil und orthogonal sind (dh senkrecht sind).B C.BC=0 B C
Im Zusammenhang mit der linearen Regression sind die Residuen orthogonal zur erniedrigten Prognose . Die Vorhersage aus der linearen Regression erzeugt eine orthogonale Zerlegung von in einem ähnlichen Sinne wie eine orthogonale Zerlegung ist.y i - ˉ y y ( 3 , 4 ) = ( 3 , 0 ) + ( 0 , 4 )ϵi=yi−y^i y^i−y¯ y (3,4)=(3,0)+(0,4)
Lineare Algebra-Version:
Lassen:
Die lineare Regression (mit eingeschlossener Konstante) zerlegt in die Summe zweier Vektoren: eine Vorhersage und ein Residuumz εz z^ ϵ
Lassen Sie bezeichnet das Punktprodukt . (Im Allgemeinen kann das innere Produkt .)⟨.,.⟩ ⟨X,Y⟩ E[XY]
Wo die letzte Zeile aus der Tatsache folgt, dass (dh das und sind orthogonal). Sie können beweisen, dass und orthogonal sind, basierend darauf, wie die gewöhnliche Regression der kleinsten Quadrate konstruiert .⟨z^,ϵ⟩=0 z^ ϵ=z−z^ z^ ϵ z^
Beachten Sie, dass, wie ich als Punktprodukt definiert habe, ist einfach eine andere Schreibweise (dh SSTO = SSR + SSE)⟨.,.⟩ ⟨z,z⟩=⟨z^,z^⟩+⟨ϵ,ϵ⟩ ∑i(yi−y¯)2=∑i(y^i−y¯)2+∑i(yi−y^i)2
quelle
Der springende Punkt zeigt, dass bestimmte Vektoren orthogonal sind und dann den Satz von Pythagoras verwenden.
Betrachten wir die multivariate lineare Regression . Wir wissen, dass der OLS-Schätzer . Betrachten Sie nun die SchätzungY=Xβ+ϵ β^=(XtX)−1XtY
wobei eine orthogonale Projektionsmatrix von Y auf . Jetzt haben wirH S(X)
wobei eine Projektionsmatrix auf das orthogonale Komplement von ist, das . Somit wissen wir, dass und orthogonal sind.(I−H) S(X) S⊥(X) Y−Y^ Y^
Betrachten Sie nun ein UntermodellY=X0β0+ϵ
wobei und ähnlich haben wir den OLS-Schätzer und schätzen und mit der Projektionsmatrix auf . In haben wir, dass und orthogonal sind. Und nunX=[X0|X1] β0^ Y0^ H0 S(X0) Y−Y0^ Y0^
wobei wiederum eine orthogonale Projektionsmatrix auf das Komplement von ist, das . Wir haben also die Orthogonalität von und . Am Ende haben wir es also(I−H0) S(X0) S⊥(X0) Y^−Y0^ Y0^
und schließlich||Y−Y0^||2=||Y−Y^||2+||Y^−Y0^||2
Schließlich ist der Mittelwert einfach der wenn das Nullmodell .^ Y 0 Y=β0+eY¯ Y0^ Y=β0+e
quelle