Intuitive Erklärung des Terms

18

Wenn vollen Rang hat, existiert die Umkehrung von und wir erhalten die Schätzung der kleinsten Quadrate: und $X$ $X^TX$

\hat{β} = (X^{T} X)^{- 1} X Y

$\hat\beta = (X^TX)^{-1}XY$

Var (\hat{β}) = σ^{2} (X^{T} X)^{- 1}

$\operatorname{Var}(\hat\beta) = \sigma^2(X^TX)^{-1}$

Wie können wir in der Varianzformel intuitiv erklären ? Die Technik der Ableitung ist für mich klar. $(X^TX)^{-1}$

regression variance least-squares Daniel Yefimov
quelle

3

Sie können eine Notiz darauf hin hinzufügen möchten , dass die Formel , die Sie für die Varianz-Kovarianzmatrix angegeben haben

- vorausgesetzt ,

von OLS geschätzt wird - ist nur korrekt , wenn die Bedingungen des Gauss-Markov Theorem sind erfüllt und insbesondere nur dann , wenn die Varianz-Kovarianz - Matrix des Fehlerterme ist gegeben durch

, wobei

das ist

Identitätsmatrix und

ist die Anzahl der Reihen von

(und

). Die von Ihnen angegebene Formel ist für den allgemeineren Fall von nicht sphärischen Fehlern nicht korrekt.

\hat{β}

$\hat{\beta}$

\hat{β}

$\hat{\beta}$

σ^{2} I_{n}

$\sigma^2 I_n$

I_{n}

$I_n$

n \times n

$n\times n$

n

$n$

X

$X$

Y

$Y$

Mico

13

Stellen Sie sich eine einfache Regression ohne konstanten Term vor, bei der der einzelne Regressor auf dem Stichprobenmittelwert zentriert ist. Dann ist $X'X$ ( $n$ fach) seine Stichprobenvarianz und $(X'X)^{-1}$ sein Kehrwert. Je höher die Varianz = Variabilität im Regressor ist, desto geringer ist die Varianz des Koeffizientenschätzers: Je mehr Variabilität wir in der erklärenden Variablen haben, desto genauer können wir den unbekannten Koeffizienten schätzen.

Warum? Denn je variabler ein Regressor ist, desto mehr Informationen enthält er. Wenn es viele Regressoren gibt, verallgemeinert sich dies auf die Umkehrung ihrer Varianz-Kovarianz-Matrix, die auch die Ko-Variabilität der Regressoren berücksichtigt. Im Extremfall, in dem diagonal ist, hängt die Genauigkeit für jeden geschätzten Koeffizienten nur von der Varianz / Variabilität des zugeordneten Regressors ab (unter Berücksichtigung der Varianz des Fehlerterms). $X'X$

Alecos Papadopoulos
quelle

Könnten Sie dieses Argument auf die Tatsache zurückführen , dass die Inverse der Varianz-Kovarianz-Matrix die partielle Korrelation ergibt ?

Heisenberg

5

Eine einfache Art, ist das (multivariate) Matrixanalogon von $\sigma^2 \left(\mathbf{X}^{T} \mathbf{X} \right)^{-1}$ , was die Varianz des Steigungskoeffizienten bei der einfachen OLS-Regression ist. Man kann sogar $\frac{\sigma^2}{\sum_{i=1}^n \left(X_i-\bar{X}\right)^2}$ für diese Varianz, indem der Schnittpunkt im Modell weggelassen wird, dh indem eine Regression über den Ursprung durchgeführt wird. $\frac{\sigma^2}{\sum_{i=1}^n X_i^2}$

Aus jeder dieser Formeln ist ersichtlich, dass eine größere Variabilität der Prädiktorvariablen im Allgemeinen zu einer genaueren Schätzung ihres Koeffizienten führt. Diese Idee wird häufig bei der Gestaltung von Experimenten ausgenutzt, bei denen versucht wird, durch Auswahl von Werten für die (nicht zufälligen) Prädiktoren die Determinante von so groß wie möglich zu machen, wobei die Determinante ein Maß für die Variabilität ist. $\left(\mathbf{X}^{T} \mathbf{X} \right)$

JohnK
quelle

2

Hilft die lineare Transformation der Gaußschen Zufallsvariablen? Unter Verwendung der Regel, dass wenn , dann . $x \sim \mathcal{N}(\mu,\Sigma)$ $Ax + b ~ \sim \mathcal{N}(A\mu + b,A^T\Sigma A)$

Unter der Annahme, dass das zugrunde liegende Modell ist und . $Y = X\beta + \epsilon$ $\epsilon \sim \mathcal{N}(0, \sigma^2)$

∴ Y \sim N (X β, σ^{2}) X^{T} Y \sim N (X^{T} X β, X σ^{2} X^{T}) (X^{T} X)^{- 1} X^{T} Y \sim N [β, (X^{T} X)^{- 1} σ^{2}]

$\therefore Y \sim \mathcal{N}(X\beta,\sigma^2)\\ X^TY \sim \mathcal{N}(X^TX\beta, X\sigma^2 X^T)\\ (X^TX)^{-1}X^TY \sim \mathcal{N}[\beta,(X^TX)^{-1} \sigma^2]$

So ist nur eine komplizierte Skalierungsmatrix , dass Transformationen der Verteilung von . $(X^TX)^{-1}X^T$ $Y$

Hoffe das war hilfreich.

Kedarps
quelle

Nichts in der Herleitung des OLS-Schätzers und seiner Varianz erfordert die Normalität der Fehlerterme. Alles , was erforderlich ist , ist

und

. (Natürlich Normalität ist erforderlich , dass die OLS zu zeigen , erreicht die Cramer-Rao - Grenze niedriger, aber das ist nicht das, was die Entsendung des OP über ist, oder ?)

E (ε) = 0

$E(\varepsilon)=0$

E (ε ε^{T}) = σ^{2} I_{n}

$E(\varepsilon\varepsilon^T)=\sigma^2 I_n$

Mico

2

Ich werde einen anderen Ansatz verfolgen, um die Intuition zu entwickeln , die der Formel zugrunde liegt. Bei der Entwicklung der Intuition für das multiple Regressionsmodell ist es hilfreich, das bivariate lineare Regressionsmodell zu berücksichtigen, d.H. , $\text{Var}\,\hat{\beta}=\sigma^2 (X'X)^{-1}$ wird häufig als deterministischer Beitrag zu und als stochastischer Beitrag bezeichnet. Ausgedrückt als Abweichungen von der Stichprobeneinrichtung kann dieses Modell auch geschrieben werden als

y_{i} = α + β x_{i} + ε_{i}, i = 1, \dots, n .

$y_i=\alpha+\beta x_i + \varepsilon_i, \quad i=1,\ldots,n.$

α + β x_{i}

$\alpha+\beta x_i$

y_{i}

$y_i$

ε_{i}

$\varepsilon_i$

(\bar{x}, \bar{y})

$(\bar{x},\bar{y})$

(y_{i} - \bar{y}) = β (x_{i} - \bar{x}) + (ε_{i} - \bar{ε}), i = 1, \dots, n .

$(y_i-\bar{y}) = \beta(x_i-\bar{x})+(\varepsilon_i-\bar{\varepsilon}), \quad i=1,\ldots,n.$

Um die Entwicklung der Intuition zu unterstützen, nehmen wir an, dass die einfachsten Gauß-Markov-Annahmen erfüllt sind: nichtstochastisch, für alle und für alle . Wie Sie bereits sehr gut wissen, garantieren diese Bedingungen, dass $x_i$ $\sum_{i=1}^n(x_i-\bar{x})^2>0$ $n$ $\varepsilon_i \sim \text{iid}(0,\sigma^2)$ $i=1,\ldots,n$ wobei

Var \hat{β} = \frac{1}{n} σ^{2} (Var x)^{- 1},

$\text{Var}\,\hat{\beta}=\tfrac{1}{n}\sigma^2(\text{Var}\,x)^{-1}\text{,}$

ist die Stichprobenvarianz von

. In Worten macht diese Formel drei Forderungen: „Die Varianz von

ist umgekehrt proportional zu der Probengröße

,es in die Varianz ist direkt proportional

, und ist umgekehrt proportional zu der Varianz von

.“

Var x

$\text{Var}\,x$

x

$x$

\hat{β}

$\hat{\beta}$

n

$n$

ε

$\varepsilon$

x

$x$

Warum sollte die Probengröße zu verdoppeln, ceteris paribus , weil die Varianz von in zwei Hälften geschnitten sein? Dieses Ergebnis wird eng mit der iid Annahme verbunden , angewendet : Da die einzelnen Fehler angenommen werden iid sollte jede Beobachtung behandelt werden ex ante als gleichermaßen informativ. Wenn Sie die Anzahl der Beobachtungen verdoppeln , verdoppelt sich auch die Informationsmenge über die Parameter, die die (angenommene lineare) Beziehung zwischen und . Wenn doppelt so viele Informationen vorliegen, halbiert sich die Unsicherheit über die Parameter. Ebenso sollte es einfach sein, die Intuition dafür zu entwickeln, warum man verdoppelt $\hat{\beta}$ $\varepsilon$ $x$ $y$ verdoppeltauch die Varianz von . $\sigma^2$ $\hat{\beta}$

Wenden wir uns also auf Ihre wichtigste Frage, die für den Anspruch über die Entwicklung von Intuition ist , dass die Varianz von ist umgekehrt proportional zur Varianz von . Um Begriffe zu formalisieren, betrachten wir von nun an zwei separate bivariate lineare Regressionsmodelle, Modell und Modell . Wir nehmen an, dass beide Modelle die Annahmen der einfachsten Form des Gauß-Markov-Theorems erfüllen und dass die Modelle die exakt gleichen Werte von , , und . Unter diesen Voraussetzungen ist es leicht zu zeigen, dass $\hat{\beta}$ $x$ $(1)$ $(2)$ $\alpha$ $\beta$ $n$ $\sigma^2$ ; in Worten, beide Schätzer sind unvoreingenommen. Entscheidend wird auch angenommen, dass , $\text{E}\,\hat{\beta}{}^{(1)}=\text{E}\,\hat{\beta}{}^{(2)}=\beta$ $\bar{x}^{(1)}=\bar{x}^{(2)}=\bar{x}$ . Nehmen wir ohne Einschränkung der Allgemeinheit an, dass $\text{Var}\,x^{(1)}\ne \text{Var}\,x^{(2)}$ . Welcher Schätzer für wird die kleinere Varianz haben? Anders ausgedrückt, wird $\text{Var}\,x^{(1)}>\text{Var}\,x^{(2)}$ $\hat{\beta}$ oder $\hat{\beta}{}^{(1)}$ im Durchschnittnäheran? Aus der früheren Diskussion haben wir $\hat{\beta}{}^{(2)}$ $\beta$ für. Weil $\text{Var}\,\hat{\beta} {}^{(k)} =\tfrac{1}{n}\sigma^2/\text{Var}\,x{}^{(k)})$ $k=1,2$ aus der Annahme folgt, dass $\text{Var}\,x^{(1)}>\text{Var}\,x^{(2)}$ $\text{Var}\,\hat{\beta}{}^{(1)} <\text{Var}\,\hat{\beta}{}^{(2)}$

$\text{Var}\,x^{(1)}>\text{Var}\,x^{(2)}$ $x_i^{(1)}$ $\bar{x}$ $x_i^{(2)}$ $x_i$ $\bar{x}$ $d_x$ $\text{Var}\,x^{(1)}>\text{Var}\,x^{(2)}$ implies that $d_x^{(1)} >d_x^{(2)}$ . The bivariate linear regression model, expressed in deviations from means, states that $d_y = \beta d_x^{(1)}$ for Model $(1)$ and $d_y = \beta d_x^{(2)}$ for Model $(2)$ . If $\beta\ne0$ , this means that the deterministic component of Model $(1)$ , $\beta d_x^{(1)}$ , has a greater influence on $d_y$ than does the deterministic component of Model $(2)$ , $\beta d_x^{(2)}$ . Recall that the both models are assumed to satisfy the Gauss-Markov assumptions, that the error variances are the same in both models, and that $\beta^{(1)}=\beta^{(2)}=\beta$ . Since Model $(1)$ imparts more information about the contribution of the deterministic component of $y$ than does Model $(2)$ , it follows that the precision with which the deterministic contribution can be estimated is greater for Model $(1)$ than is the case for Model $(2)$ . The converse of greater precision is a lower variance of the point estimate of $\beta$ .

It is reasonably straightforward to generalize the intuition obtained from studying the simple regression model to the general multiple linear regression model. The main complication is that instead of comparing scalar variances, it is necessary to compare the "size" of variance-covariance matrices. Having a good working knowledge of determinants, traces and eigenvalues of real symmetric matrices comes in very handy at this point :-)

Mico
quelle

1

Say we have $n$ observations (or sample size) and $p$ parameters.

The covariance matrix $\operatorname{Var}(\hat{\beta})$ of the estimated parameters $\hat{\beta}_1,\hat{\beta}_2$ etc. is a representation of the accuracy of the estimated parameters.

If in an ideal world the data could be perfectly described by the model, then the noise will be $\sigma^2= 0$ . Now, the diagonal entries of $\operatorname{Var}(\hat{\beta})$ correspond to $\operatorname{Var}(\hat{\beta_1}),\operatorname{Var}(\hat{\beta_2})$ etc. The derived formula for the variance agrees with the intuition that if the noise is lower, the estimates will be more accurate.

In addition, as the number of measurements gets larger, the variance of the estimated parameters will decrease. So, overall the absolute value of the entries of $X^TX$ will be higher, as the number of columns of $X^T$ is $n$ and the number of rows of $X$ is $n$ , and each entry of $X^TX$ is a sum of $n$ product pairs. The absolute value of the entries of the inverse $(X^TX)^{-1}$ will be lower.

Hence, even if there is a lot of noise, we can still reach good estimates $\hat{\beta_i}$ of the parameters if we increase the sample size $n$ .

I hope this helps.

Reference: Section 7.3 on Least squares: Cosentino, Carlo, and Declan Bates. Feedback control in systems biology. Crc Press, 2011.

Dilly Minch
quelle

1

Dies baut auf der Antwort von @Alecos Papadopuolos auf.

Denken Sie daran, dass das Ergebnis einer Regression der kleinsten Quadrate nicht von den Maßeinheiten Ihrer Variablen abhängt. Angenommen, Ihre X-Variable ist ein Längenmaß in Zoll. Eine erneute Skalierung von X, beispielsweise durch Multiplizieren mit 2,54, um die Einheit in Zentimeter zu ändern, hat keinen wesentlichen Einfluss auf die Dinge. Wenn Sie das Modell erneut anpassen, ist die neue Regressionsschätzung die alte Schätzung geteilt durch 2,54.

Das $X'X$ Die Matrix ist die Varianz von X und spiegelt daher den Maßstab von X wider. Wenn Sie den Maßstab ändern, müssen Sie dies in Ihrer Schätzung von berücksichtigen $\beta$ und dies geschieht durch Multiplikation mit der Umkehrung von $X'X$ .

Hong Ooi
quelle

Intuitive Erklärung des Terms

Antworten: