Ableiten einer Varianz-Kovarianz-Matrix von Koeffizienten in linearer Regression

36

Ich lese gerade ein Buch über lineare Regression und habe Probleme, die Varianz-Kovarianz-Matrix von zu verstehen :b

Bildbeschreibung hier eingeben

Die diagonalen Elemente sind einfach genug, aber die nicht diagonalen sind etwas schwieriger. Was mich ist, dass

σ(b0,b1)=E(b0b1)E(b0)E(b1)=E(b0b1)β0β1

Von und hier jedoch keine Spur vorhanden .β0β1

qed
quelle
3
Zugehörige Frage: stats.stackexchange.com/questions/44838/…
ocram
2
Welches ist das Buch?
Konstantinos

Antworten:

53

Dies ist eigentlich eine coole Frage, die Ihr grundlegendes Verständnis einer Regression in Frage stellt.

Nehmen Sie zuerst alle anfänglichen Verwirrungen über die Notation heraus. Wir betrachten die Regression:

y=b0+b1x+u^

Dabei sind und die Schätzer der wahren und und die Residuen der Regression. Es ist zu beachten, dass die zugrunde liegende wahre und unversorgte Regression folgendermaßen bezeichnet wird:b0b1β0β1u^

y=β0+β1x+u

Mit der Erwartung von und der Varianz . Einige Bücher bezeichnen als und wir passen diese Konvention hier an. Wir verwenden auch die Matrixnotation, wobei b der 2x1-Vektor ist, der die Schätzer von , nämlich . (Auch aus Gründen der Klarheit behandle ich X wie in den folgenden Berechnungen festgelegt.)E[u]=0E[u2]=σ2bβ^β=[β0,β1]b=[b0,b1]

Nun zu deiner Frage. Ihre Formel für die Kovarianz ist in der Tat richtig, das heißt:

σ(b0,b1)=E(b0b1)E(b0)E(b1)=E(b0b1)β0β1

Ich denke, Sie möchten wissen, wie es dazu kommt, dass wir die wahren unbeobachteten Koeffizienten in dieser Formel haben? Sie werden tatsächlich gestrichen, wenn wir durch Erweitern der Formel einen Schritt weiter gehen. Beachten Sie, dass die Populationsvarianz des Schätzers gegeben ist durch:β0,β1

Var(β^)=σ2(XX)1

Diese Matrix enthält die Varianzen in den diagonalen Elementen und die Kovarianzen in den nicht diagonalen Elementen.

Um zur obigen Formel zu gelangen, verallgemeinern wir Ihre Behauptung mithilfe der Matrixnotation. Bezeichnen wir deshalb die Varianz mit und die Erwartung mit .Var[]E[]

Var[b]=E[b2]E[b]E[b]

Im Wesentlichen haben wir die allgemeine Varianzformel, nur unter Verwendung der Matrixnotation. Die Gleichung wird aufgelöst, wenn im Standardausdruck der Schätzer . Nehmen Sie auch an, dass ein unvoreingenommener Schätzer ist. Somit erhalten wir:b=(XX)1XyE[b]=β

E[((XX)1Xy)2]β22×2

Beachten Sie, dass wir auf der rechten Seite eine - 2x2-Matrix haben, nämlich , aber Sie können an dieser Stelle bereits raten, was in Kürze mit diesem Begriff geschehen wird.β2bb

Durch Ersetzen von durch unseren Ausdruck für den oben beschriebenen eigentlichen Datenerzeugungsprozess haben wir:y

E[((XX)1Xy)2]β2=E[((XX)1X(Xβ+u))2]β2=E[((XX)1XX=Iβ+(XX)1Xu)2]β2=E[(β+(XX)1Xu)2]β2=β2+E[(XX)1Xu)2]β2

da . Darüber hinaus wird der quadratische Term wie erwartet gelöscht.E[u]=0β2

So haben wir:

Var[b]=((XX)1X)2E[u2]

Durch Linearität der Erwartungen. Man beachte, dass nach Annahme und da eine Symmetriematrix und damit die gleiche wie ihre Transponierte ist. Endlich kommen wir anE[u2]=σ2((XX)1X)2=(XX)1XX(XX)1=(XX)1XXK×K

Var[b]=σ2(XX)1

Jetzt, da wir alle Begriffe losgeworden sind. Intuitiv ist die Varianz des Schätzers unabhängig vom Wert des wahren zugrunde liegenden Koeffizienten, da dies an sich keine Zufallsvariable ist. Das Ergebnis gilt für alle einzelnen Elemente in der Varianz-Kovarianz-Matrix, wie im Buch gezeigt, also auch für die nicht diagonalen Elemente, die jeweils mit aufgehoben werden. Das einzige Problem war, dass Sie die allgemeine Formel für die Varianz angewendet hatten, die diese Stornierung zunächst nicht widerspiegelt.ββ0β1

Letztendlich reduziert sich die Varianz der Koeffizienten auf und ist unabhängig von . Aber was heißt das? (Ich glaube, Sie haben auch um ein allgemeineres Verständnis der allgemeinen Kovarianzmatrix gebeten.)σ2(XX)1β

Schauen Sie sich die Formel im Buch an. Es wird einfach angenommen, dass die Varianz des Schätzers zunimmt, wenn der wahre zugrunde liegende Fehlerterm verrauscht ist ( nimmt zu), aber abnimmt, wenn die Streuung von X zunimmt. Da sich mehr Beobachtungen um den wahren Wert verteilen, können Sie im Allgemeinen einen Schätzer erstellen, der genauer und damit näher an der wahren . Andererseits werden die Kovarianzterme auf der Off-Diagonale bei der Hypothesentestung von Gelenkhypothesen wie praktisch relevant . Davon abgesehen sind sie wirklich ein bisschen fudge. Hoffe das klärt alle Fragen.σ2βb0=b1=0

Majte
quelle
und wenn die Spreizung konstant gehalten und die x verringert wird, wird der Standardfehler des Abschnitts kleiner, was sinnvoll ist.
Theta30
Ich verfolge die Ausdehnung des Platzes nicht. Warum wird nicht vereinfacht zu ? ((XX)1X)2=((XX)1X)((XX)1X)=X2
David
2

In Ihrem Fall haben wir

XX=[nXiXiXi2]

Invertieren Sie diese Matrix und Sie erhalten das gewünschte Ergebnis.

mpiktas
quelle
1

Es scheint, dass die vorhergesagten Werte (erwarteten Werte) sind. Sie schalten zwischen und . E ( b 0 ) = β 0 E ( b 1 ) = β 1β0β1E(b0)=β0E(b1)=β1

Drew75
quelle
β 1β0 und sind im Allgemeinen unbekannt. Worauf können sie umstellen? β1
Qed
Ich glaube, ich verstehe die Verwirrung, und ich denke, sie hätten vielleicht schreiben sollen, anstatt . Hier ist ein weiterer Beitrag, der die Berechnung durchläuft: link β 0β0β0
Drew75
2
@qed: um Schätzungen der unbekannten Größen zu berechnen.
Glen_b