Wenn vollen Rang hat, existiert die Umkehrung von und wir erhalten die Schätzung der kleinsten Quadrate: und
Wie können wir in der Varianzformel intuitiv erklären ? Die Technik der Ableitung ist für mich klar.
regression
variance
least-squares
Daniel Yefimov
quelle
quelle
Antworten:
Stellen Sie sich eine einfache Regression ohne konstanten Term vor, bei der der einzelne Regressor auf dem Stichprobenmittelwert zentriert ist. Dann istX′X ( n fach) seine Stichprobenvarianz und (X′X)−1 sein Kehrwert. Je höher die Varianz = Variabilität im Regressor ist, desto geringer ist die Varianz des Koeffizientenschätzers: Je mehr Variabilität wir in der erklärenden Variablen haben, desto genauer können wir den unbekannten Koeffizienten schätzen.
Warum? Denn je variabler ein Regressor ist, desto mehr Informationen enthält er. Wenn es viele Regressoren gibt, verallgemeinert sich dies auf die Umkehrung ihrer Varianz-Kovarianz-Matrix, die auch die Ko-Variabilität der Regressoren berücksichtigt. Im Extremfall, in dem diagonal ist, hängt die Genauigkeit für jeden geschätzten Koeffizienten nur von der Varianz / Variabilität des zugeordneten Regressors ab (unter Berücksichtigung der Varianz des Fehlerterms).X′X
quelle
Eine einfache Art, ist das (multivariate) Matrixanalogon von σ 2σ2(XTX)−1 , was die Varianz des Steigungskoeffizienten bei der einfachen OLS-Regression ist. Man kann sogarσ2 bekommenσ2∑ni=1(Xi−X¯)2 für diese Varianz, indem der Schnittpunkt im Modell weggelassen wird, dh indem eine Regression über den Ursprung durchgeführt wird.σ2∑ni=1X2i
Aus jeder dieser Formeln ist ersichtlich, dass eine größere Variabilität der Prädiktorvariablen im Allgemeinen zu einer genaueren Schätzung ihres Koeffizienten führt. Diese Idee wird häufig bei der Gestaltung von Experimenten ausgenutzt, bei denen versucht wird, durch Auswahl von Werten für die (nicht zufälligen) Prädiktoren die Determinante von so groß wie möglich zu machen, wobei die Determinante ein Maß für die Variabilität ist.(XTX)
quelle
Hilft die lineare Transformation der Gaußschen Zufallsvariablen? Unter Verwendung der Regel, dass wenn , dann A x + b ≤ N ( A μ + b , A T ≤ A ) ist .x∼N(μ,Σ) Ax+b ∼N(Aμ+b,ATΣA)
Unter der Annahme, dass das zugrunde liegende Modell ist und ε ~ N ( 0 , σ 2 ) .Y=Xβ+ϵ ϵ∼N(0,σ2)
So ist nur eine komplizierte Skalierungsmatrix , dass Transformationen der Verteilung von Y .(XTX)−1XT Y
Hoffe das war hilfreich.
quelle
Ich werde einen anderen Ansatz verfolgen, um die Intuition zu entwickeln , die der Formel Var zugrunde liegt. Bei der Entwicklung der Intuition für das multiple Regressionsmodell ist es hilfreich, das bivariate lineare Regressionsmodell zu berücksichtigen, d.H. ,yi=α+βxi+εi,Varβ^=σ2(X′X)−1 α + β x i wird häufig als deterministischer Beitrag zu y i und ε i als stochastischer Beitrag bezeichnet. Ausgedrückt als Abweichungen von der Stichprobeneinrichtung ( ˉ x , ˉ y ) kann dieses Modell auch geschrieben werden als ( y i - ˉ y ) = β ( x i - ˉ x ) + ( ε)
Um die Entwicklung der Intuition zu unterstützen, nehmen wir an, dass die einfachsten Gauß-Markov-Annahmen erfüllt sind: nichtstochastisch, ∑ n i = 1 ( x i - ˉ x ) 2 > 0 für alle n und ε i ∼ iid ( 0 , σ 2 ) für alle i = 1 , … , n . Wie Sie bereits sehr gut wissen, garantieren diese Bedingungen, dass Varxi ∑ni=1(xi−x¯)2>0 n εi∼iid(0,σ2) i=1,…,n wobei Var
Warum sollte die Probengröße zu verdoppeln, ceteris paribus , weil die Varianz von β in zwei Hälften geschnitten sein? Dieses Ergebnis wird eng mit der iid Annahme verbunden , angewendet ε : Da die einzelnen Fehler angenommen werden iid sollte jede Beobachtung behandelt werden ex ante als gleichermaßen informativ. Wenn Sie die Anzahl der Beobachtungen verdoppeln , verdoppelt sich auch die Informationsmenge über die Parameter, die die (angenommene lineare) Beziehung zwischen x und y beschreiben . Wenn doppelt so viele Informationen vorliegen, halbiert sich die Unsicherheit über die Parameter. Ebenso sollte es einfach sein, die Intuition dafür zu entwickeln, warum man verdoppeltβ^ ε x y verdoppeltauch die Varianz von β .σ2 β^
Wenden wir uns also auf Ihre wichtigste Frage, die für den Anspruch über die Entwicklung von Intuition ist , dass die Varianz von β ist umgekehrt proportional zur Varianz von x . Um Begriffe zu formalisieren, betrachten wir von nun an zwei separate bivariate lineare Regressionsmodelle, Modell ( 1 ) und Modell ( 2 ) . Wir nehmen an, dass beide Modelle die Annahmen der einfachsten Form des Gauß-Markov-Theorems erfüllen und dass die Modelle die exakt gleichen Werte von α , β , n und σ 2 haben . Unter diesen Voraussetzungen ist es leicht zu zeigen, dass Eβ^ x (1) (2) α β n σ2 ; in Worten, beide Schätzer sind unvoreingenommen. Entscheidend wird auch angenommen, dass whereas x ( 1 ) = ˉ x ( 2 ) = ˉ x ,VarEβ^(1)=Eβ^(2)=β x¯(1)=x¯(2)=x¯ . Nehmen wir ohne Einschränkung der Allgemeinheit an, dass VarVarx(1)≠Varx(2) . Welcher Schätzer für β wird die kleinere Varianz haben? Anders ausgedrückt, wird ßVarx(1)>Varx(2) β^ oder ββ^(1) im Durchschnittnäheranβ? Aus der früheren Diskussion haben wirVarβ^(2) β fürk=1,2. WeilVarVarβ^(k)=1nσ2/Varx(k)) k=1,2 aus der Annahme folgt, dass VarVarx(1)>Varx(2) Varβ^(1)<Varβ^(2)
It is reasonably straightforward to generalize the intuition obtained from studying the simple regression model to the general multiple linear regression model. The main complication is that instead of comparing scalar variances, it is necessary to compare the "size" of variance-covariance matrices. Having a good working knowledge of determinants, traces and eigenvalues of real symmetric matrices comes in very handy at this point :-)
quelle
Say we haven observations (or sample size) and p parameters.
The covariance matrixVar(β^) of the estimated parameters β^1,β^2 etc. is a representation of the accuracy of the estimated parameters.
If in an ideal world the data could be perfectly described by the model, then the noise will beσ2=0 . Now, the diagonal entries of Var(β^) correspond to Var(β1^),Var(β2^) etc.
The derived formula for the variance agrees with the intuition that if the noise is lower, the estimates will be more accurate.
In addition, as the number of measurements gets larger, the variance of the estimated parameters will decrease. So, overall the absolute value of the entries ofXTX will be higher, as the number of columns of XT is n and the number of rows of X is n , and each entry of XTX is a sum of n product pairs. The absolute value of the entries of the inverse (XTX)−1 will be lower.
Hence, even if there is a lot of noise, we can still reach good estimatesβi^ of the parameters if we increase the sample size n .
I hope this helps.
Reference: Section 7.3 on Least squares: Cosentino, Carlo, and Declan Bates. Feedback control in systems biology. Crc Press, 2011.
quelle
Dies baut auf der Antwort von @Alecos Papadopuolos auf.
Denken Sie daran, dass das Ergebnis einer Regression der kleinsten Quadrate nicht von den Maßeinheiten Ihrer Variablen abhängt. Angenommen, Ihre X-Variable ist ein Längenmaß in Zoll. Eine erneute Skalierung von X, beispielsweise durch Multiplizieren mit 2,54, um die Einheit in Zentimeter zu ändern, hat keinen wesentlichen Einfluss auf die Dinge. Wenn Sie das Modell erneut anpassen, ist die neue Regressionsschätzung die alte Schätzung geteilt durch 2,54.
DasX′X Die Matrix ist die Varianz von X und spiegelt daher den Maßstab von X wider. Wenn Sie den Maßstab ändern, müssen Sie dies in Ihrer Schätzung von berücksichtigen β und dies geschieht durch Multiplikation mit der Umkehrung vonX′X .
quelle