Intuitive Erklärung des Terms

18

Wenn vollen Rang hat, existiert die Umkehrung von und wir erhalten die Schätzung der kleinsten Quadrate: undXXTX

β^=(XTX)1XY
Var(β^)=σ2(XTX)1

Wie können wir in der Varianzformel intuitiv erklären ? Die Technik der Ableitung ist für mich klar.(XTX)1

Daniel Yefimov
quelle
3
Sie können eine Notiz darauf hin hinzufügen möchten , dass die Formel , die Sie für die Varianz-Kovarianzmatrix angegeben haben β - vorausgesetzt , β von OLS geschätzt wird - ist nur korrekt , wenn die Bedingungen des Gauss-Markov Theorem sind erfüllt und insbesondere nur dann , wenn die Varianz-Kovarianz - Matrix des Fehlerterme ist gegeben durch & sgr; 2 I n , wobei I n das ist n × n Identitätsmatrix und n ist die Anzahl der Reihen von X (und Y ). Die von Ihnen angegebene Formel ist für den allgemeineren Fall von nicht sphärischen Fehlern nicht korrekt.β^β^σ2InInn×nnXY
Mico

Antworten:

13

Stellen Sie sich eine einfache Regression ohne konstanten Term vor, bei der der einzelne Regressor auf dem Stichprobenmittelwert zentriert ist. Dann ist XX ( n fach) seine Stichprobenvarianz und (XX)1 sein Kehrwert. Je höher die Varianz = Variabilität im Regressor ist, desto geringer ist die Varianz des Koeffizientenschätzers: Je mehr Variabilität wir in der erklärenden Variablen haben, desto genauer können wir den unbekannten Koeffizienten schätzen.

Warum? Denn je variabler ein Regressor ist, desto mehr Informationen enthält er. Wenn es viele Regressoren gibt, verallgemeinert sich dies auf die Umkehrung ihrer Varianz-Kovarianz-Matrix, die auch die Ko-Variabilität der Regressoren berücksichtigt. Im Extremfall, in dem diagonal ist, hängt die Genauigkeit für jeden geschätzten Koeffizienten nur von der Varianz / Variabilität des zugeordneten Regressors ab (unter Berücksichtigung der Varianz des Fehlerterms).XX

Alecos Papadopoulos
quelle
Könnten Sie dieses Argument auf die Tatsache zurückführen , dass die Inverse der Varianz-Kovarianz-Matrix die partielle Korrelation ergibt ?
Heisenberg
5

Eine einfache Art, ist das (multivariate) Matrixanalogon von σ 2σ2(XTX)1 , was die Varianz des Steigungskoeffizienten bei der einfachen OLS-Regression ist. Man kann sogarσ2 bekommenσ2i=1n(XiX¯)2 für diese Varianz, indem der Schnittpunkt im Modell weggelassen wird, dh indem eine Regression über den Ursprung durchgeführt wird.σ2i=1nXi2

Aus jeder dieser Formeln ist ersichtlich, dass eine größere Variabilität der Prädiktorvariablen im Allgemeinen zu einer genaueren Schätzung ihres Koeffizienten führt. Diese Idee wird häufig bei der Gestaltung von Experimenten ausgenutzt, bei denen versucht wird, durch Auswahl von Werten für die (nicht zufälligen) Prädiktoren die Determinante von so groß wie möglich zu machen, wobei die Determinante ein Maß für die Variabilität ist.(XTX)

JohnK
quelle
2

Hilft die lineare Transformation der Gaußschen Zufallsvariablen? Unter Verwendung der Regel, dass wenn , dann A x + b N ( A μ + b , A TA ) ist .xN(μ,Σ)Ax+b N(Aμ+b,ATΣA)

Unter der Annahme, dass das zugrunde liegende Modell ist und ε ~ N ( 0 , σ 2 ) .Y=Xβ+ϵϵN(0,σ2)

YN(Xβ,σ2)XTYN(XTXβ,Xσ2XT)(XTX)1XTYN[β,(XTX)1σ2]

So ist nur eine komplizierte Skalierungsmatrix , dass Transformationen der Verteilung von Y .(XTX)1XTY

Hoffe das war hilfreich.

Kedarps
quelle
Nichts in der Herleitung des OLS-Schätzers und seiner Varianz erfordert die Normalität der Fehlerterme. Alles , was erforderlich ist , ist und E ( ε ε T ) = σ 2 I n . (Natürlich Normalität ist erforderlich , dass die OLS zu zeigen , erreicht die Cramer-Rao - Grenze niedriger, aber das ist nicht das, was die Entsendung des OP über ist, oder ?)E(ε)=0E(εεT)=σ2In
Mico
2

Ich werde einen anderen Ansatz verfolgen, um die Intuition zu entwickeln , die der Formel Var zugrunde liegt. Bei der Entwicklung der Intuition für das multiple Regressionsmodell ist es hilfreich, das bivariate lineare Regressionsmodell zu berücksichtigen, d.H. ,yi=α+βxi+εi,Varβ^=σ2(XX)1α + β x i wird häufig als deterministischer Beitrag zu y i und ε i als stochastischer Beitrag bezeichnet. Ausgedrückt als Abweichungen von der Stichprobeneinrichtung ( ˉ x , ˉ y ) kann dieses Modell auch geschrieben werden als ( y i - ˉ y ) = β ( x i - ˉ x ) + ( ε)

yi=α+βxi+εi,i=1,,n.
α+βxiyiεi(x¯,y¯)
(yiy¯)=β(xix¯)+(εiε¯),i=1,,n.

Um die Entwicklung der Intuition zu unterstützen, nehmen wir an, dass die einfachsten Gauß-Markov-Annahmen erfüllt sind: nichtstochastisch, n i = 1 ( x i - ˉ x ) 2 > 0 für alle n und ε iiid ( 0 , σ 2 ) für alle i = 1 , , n . Wie Sie bereits sehr gut wissen, garantieren diese Bedingungen, dass Varxii=1n(xix¯)2>0nεiiid(0,σ2)i=1,,n wobei Var

Varβ^=1nσ2(Varx)1,
ist die Stichprobenvarianz von x . In Worten macht diese Formel drei Forderungen: „Die Varianz von β ist umgekehrt proportional zu der Probengröße n ,es in die Varianz ist direkt proportional ε , und ist umgekehrt proportional zu der Varianz von x .“Varxxβ^nεx

Warum sollte die Probengröße zu verdoppeln, ceteris paribus , weil die Varianz von β in zwei Hälften geschnitten sein? Dieses Ergebnis wird eng mit der iid Annahme verbunden , angewendet ε : Da die einzelnen Fehler angenommen werden iid sollte jede Beobachtung behandelt werden ex ante als gleichermaßen informativ. Wenn Sie die Anzahl der Beobachtungen verdoppeln , verdoppelt sich auch die Informationsmenge über die Parameter, die die (angenommene lineare) Beziehung zwischen x und y beschreiben . Wenn doppelt so viele Informationen vorliegen, halbiert sich die Unsicherheit über die Parameter. Ebenso sollte es einfach sein, die Intuition dafür zu entwickeln, warum man verdoppeltβ^εxy verdoppeltauch die Varianz von β .σ2β^

Wenden wir uns also auf Ihre wichtigste Frage, die für den Anspruch über die Entwicklung von Intuition ist , dass die Varianz von β ist umgekehrt proportional zur Varianz von x . Um Begriffe zu formalisieren, betrachten wir von nun an zwei separate bivariate lineare Regressionsmodelle, Modell ( 1 ) und Modell ( 2 ) . Wir nehmen an, dass beide Modelle die Annahmen der einfachsten Form des Gauß-Markov-Theorems erfüllen und dass die Modelle die exakt gleichen Werte von α , β , n und σ 2 haben . Unter diesen Voraussetzungen ist es leicht zu zeigen, dass Eβ^x(1)(2)αβnσ2; in Worten, beide Schätzer sind unvoreingenommen. Entscheidend wird auch angenommen, dass whereas x ( 1 ) = ˉ x ( 2 ) = ˉ x ,VarEβ^(1)=Eβ^(2)=βx¯(1)=x¯(2)=x¯ . Nehmen wir ohne Einschränkung der Allgemeinheit an, dass VarVarx(1)Varx(2) . Welcher Schätzer für β wird die kleinere Varianz haben? Anders ausgedrückt, wird ßVarx(1)>Varx(2)β^ oder ββ^(1) im Durchschnittnäheranβ? Aus der früheren Diskussion haben wirVarβ^(2)βfürk=1,2. WeilVarVarβ^(k)=1nσ2/Varx(k))k=1,2 aus der Annahme folgt, dass VarVarx(1)>Varx(2)Varβ^(1)<Varβ^(2)

Varx(1)>Varx(2)xi(1)x¯xi(2)xix¯dxVarx(1)>Varx(2) implies that dx(1)>dx(2). The bivariate linear regression model, expressed in deviations from means, states that dy=βdx(1) for Model (1) and dy=βdx(2) for Model (2). If β0, this means that the deterministic component of Model (1), βdx(1), has a greater influence on dy than does the deterministic component of Model (2), βdx(2). Recall that the both models are assumed to satisfy the Gauss-Markov assumptions, that the error variances are the same in both models, and that β(1)=β(2)=β. Since Model (1) imparts more information about the contribution of the deterministic component of y than does Model (2), it follows that the precision with which the deterministic contribution can be estimated is greater for Model (1) than is the case for Model (2). The converse of greater precision is a lower variance of the point estimate of β.

It is reasonably straightforward to generalize the intuition obtained from studying the simple regression model to the general multiple linear regression model. The main complication is that instead of comparing scalar variances, it is necessary to compare the "size" of variance-covariance matrices. Having a good working knowledge of determinants, traces and eigenvalues of real symmetric matrices comes in very handy at this point :-)

Mico
quelle
1

Say we have n observations (or sample size) and p parameters.

The covariance matrix Var(β^) of the estimated parameters β^1,β^2 etc. is a representation of the accuracy of the estimated parameters.

If in an ideal world the data could be perfectly described by the model, then the noise will be σ2=0. Now, the diagonal entries of Var(β^) correspond to Var(β1^),Var(β2^) etc. The derived formula for the variance agrees with the intuition that if the noise is lower, the estimates will be more accurate.

In addition, as the number of measurements gets larger, the variance of the estimated parameters will decrease. So, overall the absolute value of the entries of XTX will be higher, as the number of columns of XT is n and the number of rows of X is n, and each entry of XTX is a sum of n product pairs. The absolute value of the entries of the inverse (XTX)1 will be lower.

Hence, even if there is a lot of noise, we can still reach good estimates βi^ of the parameters if we increase the sample size n.

I hope this helps.

Reference: Section 7.3 on Least squares: Cosentino, Carlo, and Declan Bates. Feedback control in systems biology. Crc Press, 2011.

Dilly Minch
quelle
1

Dies baut auf der Antwort von @Alecos Papadopuolos auf.

Denken Sie daran, dass das Ergebnis einer Regression der kleinsten Quadrate nicht von den Maßeinheiten Ihrer Variablen abhängt. Angenommen, Ihre X-Variable ist ein Längenmaß in Zoll. Eine erneute Skalierung von X, beispielsweise durch Multiplizieren mit 2,54, um die Einheit in Zentimeter zu ändern, hat keinen wesentlichen Einfluss auf die Dinge. Wenn Sie das Modell erneut anpassen, ist die neue Regressionsschätzung die alte Schätzung geteilt durch 2,54.

Das XX Die Matrix ist die Varianz von X und spiegelt daher den Maßstab von X wider. Wenn Sie den Maßstab ändern, müssen Sie dies in Ihrer Schätzung von berücksichtigen βund dies geschieht durch Multiplikation mit der Umkehrung vonXX.

Hong Ooi
quelle