Verteilung der Summe der Quadrate Fehler für die lineare Regression?

12

Ich weiß, dass die Verteilung der Stichprobenvarianz Es liegt an der Tatsache, dass kann in Matrixform (wobei A: symmetrisch) ausgedrückt werden, und er kann erneut ausgedrückt werden in: x'QDQ'x (wobei Q: orthonormal, D: diagonale Matrix).

(XiX¯)2σ2χ(n1)2
(XiX¯)2n1σ2n1χ(n1)2
(XX¯)2xAxxQDQx

Was ist mit (Yiβ^0β^1Xi)2 unter der Annahme (Yβ0β1X)N(0,σ2) ?

Ich

(Yiβ^0β^1Xi)2σ2χ(n2)2.

Aber ich habe keine Ahnung, wie ich es beweisen oder zeigen soll.

Ist es genau als χ(n2)2 ?

KH Kim
quelle
1
Ist das Hausaufgaben? Wenn ja, verwenden Sie bitte das Hausaufgaben-Tag.
MånsT
Nein, ist es nicht. Ich denke, es ist wahr, denn die Summe der Quadrate ist ein Quadrat der linearen Kombination von Ys gegebenen konstanten X. Aber ist es? Ein einfacher Beweis wie dieser wäre willkommen! math.stackexchange.com/questions/47009/…
KH Kim
Die Beschreibungen, die Sie sowohl in der Frage als auch in Ihrem Kommentar geben, sind etwas durcheinander. Haben Sie aufgeschrieben, wie Ihre Matrix für die Stichprobenvarianz aussehen muss? Hilft Ihnen das zu sehen, wie man verallgemeinert? A
Kardinal
Korrigiert für D. Ich denke, der kritische Punkt ist, dass das diagonale Element von D so etwas wie (1,1,1, ..., 1,0,0) sein sollte. Gibt es eine Möglichkeit, dies zu beweisen? oder Gibt es sowieso zu zeigen, dass wobei sse / ,σ 2 ~ χ 2 ( n - 2 ) Σ e 2 i / σ 2 ~ χ 2 ( n )χ2(n)=χ2(n2)+χ2(1)+χ2(1)σ2χ2(n2)ei2/σ2χ2(n)
KH Kim

Antworten:

13

Wir können dies für einen allgemeineren Fall von Variablen beweisen , indem wir die "Hutmatrix" und einige ihrer nützlichen Eigenschaften verwenden. Diese Ergebnisse sind aufgrund der Verwendung der spektralen Zerlegung in Nichtmatrix-Begriffen normalerweise viel schwieriger anzugeben.p

Nun in Matrixversion der kleinsten Quadrate, die Hut - Matrix , wo hat Zeilen und Spalten (Spalte von Einsen für ). Nehmen Sie der Einfachheit halber den vollen Spaltenrang an - andernfalls können Sie im Folgenden durch den Spaltenrang ersetzen . Wir können die angepassten Werte als oder in Matrixnotation . Auf diese Weise können wir die Summe der Quadrate wie folgt schreiben: X n p + 1 β 0 p + 1 X Y i = Σ n j = 1 H i j Y j Y = H YH=X(XTX)1XTXnp+1β0p+1XY^i=j=1nHijYjY^=HY

=YT(In-H)Y

i=1(YYi^)2σ2=(YY^)T(YY^)σ2=(YHY)T(YHY)σ2
=YT(InH)Yσ2

Wobei eine Identitätsmatrix der Ordnung . Der letzte Schritt folgt aus der Tatsache, dass eine idepotente Matrix ist, da n H H 2 = [ X ( X T X ) - 1 X T ] [ X ( X T X ) - 1 X T ] = X ( X T X ) - 1 X T = H = H H T = H. T H.InnH

H2=[X(XTX)1XT][X(XTX)1XT]=X(XTX)1XT=H=HHT=HTH

Eine nette Eigenschaft idepotenter Matrizen ist nun, dass alle ihre Eigenwerte gleich Null oder Eins sein müssen. Wenn einen normalisierten Eigenvektor von mit dem Eigenwert , können wir dies wie folgt beweisen:H leHl

He=leH(He)=H(le)
LHS=H2e=He=leRHS=lHe=l2e
le=l2el=0 or 1

(Beachten Sie, dass nicht Null sein kann, da es erfüllen muss. ) Nun, da idepotent ist, ist auch, weileeTe=1HInH

(InH)(InH)=IIHHI+H2=InH

Wir haben auch die Eigenschaft, dass die Summe der Eigenwerte der Spur der Matrix entspricht und

tr(InH)=tr(In)tr(H)=ntr(X(XTX)1XT)=ntr((XTX)1XTX)
=ntr(Ip+1)=np1

Daher muss Eigenwerte gleich und Eigenwerte gleich .IHnp11p+10

Jetzt können wir die spektrale Zerlegung von wobei und ist orthogonal (weil symmetrisch ist). Eine weitere Eigenschaft , die nützlich ist , ist , daß . Dies hilft, die Matrix einzugrenzenIH=ADATD=(Inp10[np1]×[p+1]0[p+1]×[np1]0[p+1]×[p+1])AIHHX=XA

HX=X(IH)X=0ADATX=0DATX=0
(ATX)ij=0i=1,,np1j=1,,p+1

und wir bekommen:

i=1(YYi^)2σ2=YTADATYσ2=i=1np1(ATY)i2σ2

Nun haben wir unter dem Modell und unter Verwendung der normalen Standardtheorie haben wir zeigt, dass die Komponenten von unabhängig sind. Wenn wir nun das nützliche Ergebnis verwenden, haben wir das für . Die Chi-Quadrat-Verteilung mit Freiheitsgraden für die Summe der quadratischen Fehler folgt sofort.YN(Xβ,σ2I)ATYN(ATXβ,σ2ATA)N(ATXβ,σ2I)ATY(ATY)iN(0,σ2)i=1,,np1np1

Wahrscheinlichkeitslogik
quelle
Wow, vielen Dank. Es ist wirklich großartig! Matrixform zahlt sich wirklich aus! Zusammenfassend ist SSE / und ist idempotent. Idempotente Matrizen haben Eigenwerte von entweder 0 oder 1. Die Summe der Eigenwerte ist also die Anzahl der Eigenwerte 1. und da und zu n-p wird +1. und die Summe der Eigenwerte einer Matrix ist die Summe der Spuren der Matrix! und kann als ausgedrückt werden . Das erste wird also zu mit D mit nur np-1 diagonalen . σ2=YT(IH)YIHtr(InH)=tr(In)tr(H)=tr(In)tr(X(XTX)1XT)=tr(In)tr((XTX)1XTX)tr(AB)=tr(BA)tr(InH)IHADATYT(IH)YYTADATY
KH Kim
1
Gute Antwort!! einen anderen Ansatz vorzustellen, können wir stattdessen eine transformierte multivariate , die immer noch der gleichen Verteilung folgt: wenn wir die affine Eigenschaft verwenden. Dann wird der letzte Bruch . N ( 0 , σ 2 I ) Y ' A D A ' Y.v:=AYN(0,σ2I)YADAYσ2=vDvσ2=v[I000]vσ2=i=1trD(viσ)2
Daeyoung Lim