Unterschied zwischen t-Test und ANOVA in der linearen Regression

12

Ich frage mich, welche Unterschiede zwischen t-Test und ANOVA in der linearen Regression bestehen.

  1. Ist ein t-Test, um zu testen, ob eine der Steigungen und der Achsenabschnitt den Mittelwert Null haben, während eine ANOVA zu testen ist, ob alle Steigungen den Mittelwert Null haben? Ist das der einzige Unterschied zwischen ihnen?
  2. Bei der einfachen linearen Regression, dh wenn nur eine Prädiktorvariable vorhanden ist, muss nur eine Steigung geschätzt werden. Sind t-Test und ANOVA also gleichwertig, und wenn ja, wie, wenn sie unterschiedliche Statistiken verwenden (t-Test verwendet t-Statistik und ANOVA verwendet F-Statistik)?
Tim
quelle
Zu 1) In der linearen Regression verstehe ich ANOVA normalerweise als Maß für die Anpassungsgüte des Modells, dh um zu entscheiden, ob das Modell (Regressionsgerade) einen wesentlichen Teil der Gesamtvariabilität erklärt. Die Frage, ob alle Steigungen gleich Null sind, ist wirklich sehr interessant. Zu 2) Es sieht so aus, als würde ich in diesem Fall fast die gleichen p-Werte für den t-Test und die Regressions-ANOVA erhalten. Wirklich interessanter Satz!
Neugierig

Antworten:

18

Mit dem allgemeinen linearen Modell können wir ein ANOVA-Modell als Regressionsmodell schreiben. Nehmen wir an, wir haben zwei Gruppen mit jeweils zwei Beobachtungen, dh vier Beobachtungen in einem Vektor y . Dann ist das ursprüngliche, überparametrisierte Modell E(y)=Xβ , wobei X die Matrix von Prädiktoren ist, dh Dummy-codierte Indikatorvariablen:

(μ1μ1μ2μ2)=(110110101101)(β0β1β2)

Die Parameter sind nicht als identifizierbar, da X Rang 2 hat ( ( X ) ' X ist nicht invertierbar). Um dies zu ändern, führen wir die Bedingung β 1 = 0 (Behandlungskontraste) ein, die uns das neue Modell E ( y ) = X β gibt : (((X)X)1(X)E(y)X(X)Xβ1=0E(y)=Xβ

(μ1μ1μ2μ2)=(10101111)(β0β2)

So , dh ß 0 nimmt die Bedeutung des Erwartungswertes aus unserer Referenzkategorie (Gruppe 1). μ 2 = β 0 + β 2 , dh β 2 nimmt die Bedeutung der Differenz μ 2 - μ 1 zur Referenzkategorie an. Da mit zwei Gruppen nur ein Parameter mit dem Gruppeneffekt verknüpft ist, entspricht die ANOVA-Nullhypothese (alle Gruppeneffektparameter sind 0) der Regressionsgewicht-Nullhypothese (der Steigungsparameter ist 0).μ1=β0β0μ2=β0+β2β2μ2μ1

Ein Test im allgemeinen linearen Modell testet eine Linearkombination ψ = c j β j der Parameter gegen einen hypothetischen Wert ψ 0 unter der Nullhypothese. Wenn wir c = ( 0 , 1 ) ' wählen, können wir die Hypothese prüfen, dass β 2 = 0 (der übliche Test für den Steigungsparameter) ist, dh hier gilt μ 2 - μ 1 = 0 . Der Schätzer ist ψ = Σ C jtψ=cjβjψ0c=(0,1)β2=0μ2μ1=0, wobei β =(X'X)-1X'ydie OLS Schätzwerte für die Parameter sind. Die allgemeine Teststatistik für solcheψist: t= ψ -ψ0ψ^=cjβ^jβ^=(XX)1Xyψ

t=ψ^ψ0σ^c(XX)1c

ist ein unverzerrter Schätzer für die Fehlervarianz, woe2ist die Summe der quadrierten Residuen. Im Fall von zwei GruppenRank(X)=2,(X'X)-1X'=( .5 .5 0 0 -σ^2=e2/(nRank(X))e2Rank(X)=2und die Schätzer sind somit β 0=0,5y1+0,5y2=M1und β 2=-0,5y1-0,5y2+0,5y3+0,5y4=M2-M1. Mitc'(X'X)-(XX)1X=(.5.500.5.5.5.5)β^0=0.5y1+0.5y2=M1β^2=0.5y10.5y2+0.5y3+0.5y4=M2M1c(XX)1c being 1 in our case, the test statistic becomes:

t=M2M10σ^=M2M1e2/(n2)

t is t-distributed with nRank(X) df (here n2). When you square t, you get (M2M1)2/1e2/(n2)=SSb/dfbSSw/dfw=F, the test statistic from the ANOVA F-test for two groups (b for between, w for within groups) which follows an F-distribution with 1 and nRank(X) df.

With more than two groups, the ANOVA hypothesis (all βj are simultaneously 0, with 1j) refers to more than one parameter and cannot be expressed as a linear combination ψ, so then the tests are not equivalent.

caracal
quelle
3

In 1, ANOVA will usually test factor variables and whether or not between group variance is significant. You'll clearly see the difference if your software allows indicator variables in a regression: for each dummy you'll get a p value saying whether this group scores significantly different from 0, and as a consequence significantly different than the reference group or reference value applicable. Usually, you won't see to what degree the indicator itself is important until you do an ANOVA test.

A F-test is a squared t-test. Therefore, in 2, it's the same.

Labour
quelle
Thanks! (1) What do indicator variables mean here? (2) Generally, a t-test is equivalent to ANOVA only when there are only two groups. But in simple linear regression there may be more than two groups, where the number of groups is the number of values the predictor variable takes in the data set.
Tim
(1) Indicator or categorical or factor variable ... all the same. (2) Indeed, but you may want to know how well a set of dummies/categories scores from ANOVA.
Labour
Thanks! (2) So in simple linear regression, how is t-test equivalent to ANOVA, given that there are more than two groups? What does "how well a set of dummies/categories scores from ANOVA" mean, and why do I want to know it?
Tim
In OLS regression, R² (explained variance) will be equal to eta² or MSS / TSS from ANOVA no matter how many groups you define. Next, you might want to know the contribution of a set of dummies (i.e. an indicator variable) to say whether the set itself is relevant and to what extent, which is different from the significance of the difference between one single category with the reference category.
Labour