T-Test für lineare Regression verstehen

16

Ich versuche herauszufinden, wie man Hypothesentests für eine lineare Regression durchführt (Nullhypothese ist keine Korrelation). Jede Anleitung und Seite zu dem Thema, auf die ich stoße, scheint einen T-Test zu verwenden. Aber ich verstehe nicht, was T-Test für lineare Regression eigentlich bedeutet. Ein t-Test wird verwendet, um zwei Populationen zu vergleichen, es sei denn, ich habe ein völlig falsches Verständnis oder ein falsches mentales Modell. Aber der Regressor und der Regressand sind keine Stichproben ähnlicher Populationen und gehören möglicherweise nicht einmal zur gleichen Einheit. Daher ist es nicht sinnvoll, sie zu vergleichen.

Wenn wir also einen t-Test für eine lineare Regression verwenden, was machen wir dann eigentlich?

regression t-test Jaymmer: Setzen Sie Monica wieder ein
quelle

36

Sie denken wahrscheinlich an den Test mit zwei Stichproben , da dies häufig der erste Ort ist, an dem die Verteilung auftritt. Aber wirklich alles, was ein Test bedeutet, ist, dass die Referenzverteilung für die Teststatistik eine Verteilung ist. Wenn und mit und unabhängig sind, dann per Definition. Ich schreibe dies auf, um zu betonen, dass die Verteilung nur ein Name ist, der der Verteilung dieses Verhältnisses gegeben wurde, weil es häufig vorkommt und alles in dieser Form ein $t$ $t$ $t$ $t$ $Z \sim \mathcal N(0,1)$ $S^2 \sim \chi^2_d$ $Z$ $S^2$

\frac{Z}{\sqrt{S^{2} / d}} \sim t_{d}

$\frac{Z}{\sqrt{S^2 / d}} \sim t_d$

t

$t$

t

$t$ Verteilung. Für den t-Test mit zwei Stichproben erscheint dieses Verhältnis, weil unter der Null die Differenz im Mittel ein Gauß-Mittelwert von Null ist und die Varianzschätzung für unabhängige Gauß-Werte ein unabhängiges

χ^{2}

$\chi^2$ (die Unabhängigkeit kann über Basus Theorem gezeigt werden, das das verwendet Tatsache, dass die Standardvarianzschätzung in einer Gaußschen Stichprobe dem Populationsmittelwert entspricht, während der Stichprobenmittelwert vollständig ist und für dieselbe Menge ausreicht).

Mit linearer Regression erhalten wir im Grunde das Gleiche. In Vektorform . Sei und nehme an, dass die Prädiktoren nicht zufällig sind. Wenn wir wüssten, hätten wir unter der Null also würden wir tatsächlich Habe einen Z-Test. Aber sobald wir schätzen, erhalten wir eine Zufallsvariable, die sich unter unseren Normalitätsannahmen als unabhängig von unserer Statistik herausstellt, und dann erhalten wir eine Verteilung. $\hat \beta \sim \mathcal N(\beta, \sigma^2 (X^T X)^{-1})$ $S^2_j = (X^T X)^{-1}_{jj}$ $X$ $\sigma^2$

\frac{{\hat{β}}_{j} - 0}{σ S_{j}} \sim N (0, 1)

$\frac{\hat \beta_j - 0}{\sigma S_j} \sim \mathcal N(0, 1)$

H_{0} : β_{j} = 0

$H_0 : \beta_j = 0$

σ^{2}

$\sigma^2$

χ^{2}

$\chi^2$

{\hat{β}}_{j}

$\hat \beta_j$

t

$t$

Hier sind die Details dazu: Nehmen wir an, . Wenn die Hutmatrix ist, haben wir ist idempotent, also haben wir das wirklich schöne Ergebnis, dass mit dem Nicht-Zentralitätsparameter , also ist dies tatsächlich ein zentrales mit Freiheitsgraden (dies ist ein Sonderfall von Cochran) Satz ). Ich benutze , um die Anzahl der Spalten von , also wenn eine Spalte von $y \sim \mathcal N(X\beta, \sigma^2 I)$ $H = X(X^TX)^{-1}X^T$

‖ e ‖^{2} = ‖ (ich - H) y ‖^{2} = y^{T} (ich - H) y .

$\|e\|^2 = \|(I-H)y\|^2 = y^T(I-H)y.$

H

$H$

y^{T} (ich - H) y / σ^{2} \sim χ_{n - p}^{2} (δ)

$y^T(I-H)y / \sigma^2 \sim \mathcal \chi_{n-p}^2(\delta)$

δ = β^{T} X^{T} (I - H) X β = β^{T} (X^{T} X - X^{T} X) β = 0

$\delta = \beta^TX^T(I-H)X\beta = \beta^T(X^TX - X^T X)\beta = 0$

χ^{2}

$\chi^2$

n - p

$n-p$

p

$p$

X

$X$

X

$X$ Gibt den Intercept an, dann hätten wir Non-Intercept Predictors. Einige Autoren verwenden , um die Anzahl der Non-Intercept-Prädiktoren zu bestimmen. Manchmal sieht man dort in den Freiheitsgraden so etwas wie , aber es ist alles dasselbe.

p - 1

$p-1$

p

$p$

n - p - 1

$n-p-1$

Dies hat zur Folge, dass , also funktioniert hervorragend als Schätzer für . $E(e^Te / \sigma^2) = n-p$ $\hat \sigma^2 := \frac{1}{n-p} e^T e$ $\sigma^2$

Dies bedeutet, dass ist das Verhältnis eines Standard-Gaußschen zu einem Chi-Quadrat dividiert durch seine Freiheitsgrade. Um dies zu beenden, müssen wir Unabhängigkeit zeigen und können das folgende Ergebnis verwenden:

\frac{{\hat{β}}_{j}}{\hat{σ} S_{j}} = \frac{{\hat{β}}_{j}}{S_{j} \sqrt{e^{T} e / (n - p)}} = \frac{{\hat{β}}_{j}}{σ S_{j} \sqrt{\frac{e^{T} e}{σ^{2} (n - p)}}}

$\frac{\hat \beta_j}{\hat \sigma S_j}= \frac{\hat \beta_j}{S_j\sqrt{e^Te / (n-p)}} = \frac{\hat \beta_j}{\sigma S_j\sqrt{\frac{e^Te}{\sigma^2(n-p)}}}$

Ergebnis: Für und die Matrizen und in und sind und unabhängig genau dann, wenn (dies ist Übung 58 (b) in Kapitel 1 der mathematischen Statistik von Jun Shao ). $Z \sim \mathcal N_k(\mu, \Sigma)$ $A$ $B$ $\mathbb R^{l\times k}$ $\mathbb R^{m\times k}$ $AZ$ $BZ$ $A\Sigma B^T = 0$

Wir haben und wobei . Dies bedeutet also und daher . $\hat \beta = (X^TX)^{-1}X^T y$ $e = (I-H)y$ $y \sim \mathcal N(X\beta, \sigma^2 I)$

(X^{T} X)^{- 1} X^{T} \cdot σ^{2} ich \cdot (ich - H)^{T} = σ^{2} ((X^{T} X)^{- 1} X^{T} - (X^{T} X)^{- 1} X^{T} X (X^{T} X)^{- 1} X^{T}) = 0

$(X^TX)^{-1}X^T \cdot \sigma^2 I \cdot (I-H)^T = \sigma^2 \left((X^TX)^{-1}X^T - (X^TX)^{-1}X^TX(X^TX)^{-1}X^T\right) = 0$

\hat{β} ⊥ e

$\hat \beta \perp e$

\hat{β} ⊥ e^{T} e

$\hat \beta \perp e^T e$

Das Fazit ist, dass wir nun nach Belieben (unter allen obigen Annahmen).

\frac{{\hat{β}}_{j}}{\hat{σ} S_{j}} \sim t_{n - p}

$\frac{\hat \beta_j}{\hat \sigma S_j} \sim t_{n-p}$

Hier ist der Beweis für dieses Ergebnis. Sei die Matrix, die durch Stapeln von auf . Dann ist wobei ist ein multivariater Gauß und es ist ein bekanntes Ergebnis, dass zwei Komponenten eines multivariaten Gauß unabhängig sind, wenn und nur wenn sie nicht korreliert sind, so dass die Bedingung genau äquivalent zu den Komponenten ist $C = {A \choose B}$ $(l+m)\times k$ $A$ $B$

C Z = (\binom{EIN Z}{B Z}) \sim N ((\binom{EIN μ}{B μ}), C Σ C^{T})

$CZ = {AZ \choose BZ} \sim \mathcal N \left({A\mu \choose B\mu}, C\Sigma C^T \right)$

C Σ C^{T} = (\binom{EIN}{B}) Σ (\begin{array}{cc} {EIN}^{T} & B^{T} \end{array}) = (\begin{array}{cc} EIN Σ {EIN}^{T} & EIN Σ B^{T} \\ B Σ {EIN}^{T} & B Σ B^{T} \end{array}) .

$C\Sigma C^T = {A \choose B} \Sigma \left(\begin{array}{cc} A^T & B^T \end{array}\right) = \left(\begin{array}{cc}A\Sigma A^T & A\Sigma B^T \\ B\Sigma A^T & B\Sigma B^T\end{array}\right).$

C Z

$CZ$

A Σ B^{T} = 0

$A\Sigma B^T = 0$

A Z

$AZ$ und in nicht korreliert.

B Z

$BZ$

C Z

$CZ$

$\square$

jld
quelle

3

+1 immer viel Spaß beim Lesen Ihrer Antwort.

Haitao Du

8

@ Chaconne's Antwort ist super. Aber hier ist eine viel kürzere nicht-mathematische Version!

Da das Ziel darin besteht, einen P-Wert zu berechnen, müssen Sie zunächst eine Nullhypothese definieren. Fast immer, das heißt, die Steigung ist tatsächlich horizontal, sodass der numerische Wert für die Steigung (Beta) 0,0 beträgt.

Die Steigungsanpassung aus Ihren Daten beträgt nicht 0,0. Liegt diese Diskrepanz am Zufall oder daran, dass die Nullhypothese falsch ist? Sie können das nie mit Sicherheit beantworten, aber ein P-Wert ist ein Weg, um zu einer Antwort zu gelangen.

Das Regressionsprogramm meldet einen Standardfehler der Steigung. Berechnen Sie das t-Verhältnis als Steigung geteilt durch den Standardfehler. Tatsächlich ist es (Steigung minus Nullhypothesensteigung) geteilt durch den Standardfehler, aber die Nullhypothesensteigung ist fast immer Null.

Jetzt hast du das Verhältnis. Die Anzahl der Freiheitsgrade (df) entspricht der Anzahl der Datenpunkte abzüglich der Anzahl der durch die Regression angepassten Parameter (zwei für die lineare Regression).

Mit diesen Werten (t und df) können Sie den P-Wert mit einem Online-Rechner oder einer Online-Tabelle ermitteln.

Es handelt sich im Wesentlichen um einen t-Test mit einer Stichprobe, bei dem ein beobachteter berechneter Wert (die Steigung) mit einem hypothetischen Wert (die Nullhypothese) verglichen wird.

Harvey Motulsky
quelle

3

Die eigentliche Frage ist, warum dies "im Wesentlichen ein T-Test mit einer Stichprobe" ist, und ich sehe nicht, wie es aus Ihrer Antwort deutlich werden kann ...

Amöbe sagt Reinstate Monica

T-Test für lineare Regression verstehen

Antworten: