Warum wird RSS Chi-Quadrat-mal np verteilt?

28

Ich möchte , verstehen , warum unter dem OLS - Modell, die RSS (Restsumme der Quadrate) verteilt wird ( die Anzahl der Parameter in dem Modell ist, die Anzahl der Beobachtungen).

χ2(np)
pn

Ich entschuldige mich dafür, dass ich eine so grundlegende Frage gestellt habe, aber ich kann die Antwort anscheinend nicht online (oder in meinen anwendungsorientierten Lehrbüchern) finden.

Tal Galili
quelle
3
Beachten Sie, dass die Antworten zeigen, dass die Behauptung nicht ganz richtig ist: Die Verteilung von RSS ist (nicht ) mal eine -Verteilung, wobei die wahre Varianz der Fehler ist. n - p 2 ( n - p ) σ 2σ2npχ2(np)σ2
whuber

Antworten:

36

Ich betrachte folgendes lineares Modell: y=Xβ+ϵ .

Der Vektor der Residuen wird geschätzt durch

ϵ^=yXβ^=(IX(XX)1X)y=Qy=Q(Xβ+ϵ)=Qϵ

wobei .Q=IX(XX)1X

Beachten Sie, dass (die Kurve ist bei zyklischer Permutation invariant) und dass Q ' = Q = Q 2 . Die Eigenwerte von Q sind daher 0 und 1 (einige Details unten). Daher existiert eine einheitliche Matrix V, so dass ( Matrizen sind genau dann durch einheitliche Matrizen diagonalisierbar, wenn sie normal sind. )tr(Q)=npQ=Q=Q2Q01V

VQV=Δ=diag(1,,1np times,0,,0p times)

Nun wollen wir ε .K=Vϵ^

Da ε ~ N ( 0 , & sgr; 2 Q ) , haben wir K ~ N ( 0 , σ 2 Δ ) und daher K n - p + 1 = ... = K n = 0 . Somitϵ^N(0,σ2Q)KN(0,σ2Δ)Knp+1==Kn=0

K2σ2=K2σ2χnp2

mit .K=(K1,,Knp)

Da eine einheitliche Matrix ist, haben wir auchV

ϵ^2=K2=K2

Somit

RSSσ2χnp2

Beachten Sie schließlich, dass dieses Ergebnis dies impliziert

E(RSSnp)=σ2

Da , teilt das Minimalpolynom von Q das Polynom z 2 - z . Die Eigenwerte von Q liegen also zwischen 0 und 1 . Da tr ( Q ) = n - p auch die Summe der Eigenwerte multipliziert mit ihrer Multiplizität ist, haben wir zwangsläufig, dass 1 ein Eigenwert mit der Multiplizität n - p und Null ein Eigenwert mit der Multiplizität p ist .Q2Q=0Qz2zQ01tr(Q)=np1npp

Ocram
quelle
1
(+1) Gute Antwort. Man kann die Aufmerksamkeit auf orthogonale statt auf einheitliche da Q reell und symmetrisch ist. Auch, was ist S C R ? Ich sehe es nicht definiert. Durch ein leichtes erneutes Auslösen des Arguments kann auch die Verwendung einer entarteten Normalen vermieden werden, falls dies bei denjenigen, die nicht damit vertraut sind, einige Bestürzung hervorruft. VQSCR
Kardinal
2
@Kardinal. Guter Punkt. SCR ('Somme des Carrés Résiduels' auf Französisch) sollte RSS sein.
25.
Danke für die ausführliche Antwort Ocram! Einige Schritte erfordern, dass ich mehr nachschaue, aber ich muss jetzt über eine Übersicht nachdenken - danke!
Tal Galili
@ Glen_b: Oh, ich habe vor ein paar Tagen eine Änderung vorgenommen, um SCR in SRR zu ändern. Ich habe mich nicht daran erinnert, dass SCR in meinem Kommentar erwähnt wird. Entschuldigung für die Verwirrung.
18.
@ Glen_b: Es sollte bedeuten, RSS: -S erneut bearbeitet. Thx
ocram
9

IMHO kompliziert die matricial Notation Sachen. Reine Vektorraumsprache ist sauberer. Das Modell kann geschrieben werden als Y = μ + σ G, wobei G die Standardnormalverteilung auf R n hat und angenommen wird, dass μ zu einem Vektorsubraum W R n gehört .Y=Xβ+ϵY=μ+σGGRnμWRn

Jetzt kommt die Sprache der Elementargeometrie ins Spiel. Die Least-Squares - Schätzfunktion μ von μ ist nichts anderes als P W Y : die orthogonale Projektion des beobachtbaren Y auf den Raum W , den μ angenommen wird , gehört. Der Vektor der Residuen ist P W Y : Projektion auf das orthogonale Komplement W von W in R n . Die Dimension von W ist dim ( W ) = n -μ^μPWYYWμPWYWWRnW .dim(W)=ndim(W)

Schließlich ist und P W G hat die Standardnormalverteilung auf W , daher hat seine quadratische Norm die χ 2- Verteilung mit dim ( W ) Freiheitsgrade.

PWY=PW(μ+σG)=0+σPWG,
PWGWχ2dim(W)

Diese Demonstration verwendet nur einen Satz, eigentlich einen Definitionssatz:

Definition und Satz . Ein Zufallsvektor in hat die Standardnormalverteilung auf einem Vektorraum U R n, wenn er seine Werte in U und seine Koordinaten in einem (RnURnUInsgesamt sind orthonormale Basis von unabhängige eindimensionale StandardnormalverteilungenU

(Aus diesem Definitionssatz geht hervor, dass der Satz von Cochran so offensichtlich ist, dass es sich nicht lohnt, ihn anzugeben.)

Stéphane Laurent
quelle