Ich frage mich, welche Unterschiede zwischen t-Test und ANOVA in der linearen Regression bestehen.
- Ist ein t-Test, um zu testen, ob eine der Steigungen und der Achsenabschnitt den Mittelwert Null haben, während eine ANOVA zu testen ist, ob alle Steigungen den Mittelwert Null haben? Ist das der einzige Unterschied zwischen ihnen?
- Bei der einfachen linearen Regression, dh wenn nur eine Prädiktorvariable vorhanden ist, muss nur eine Steigung geschätzt werden. Sind t-Test und ANOVA also gleichwertig, und wenn ja, wie, wenn sie unterschiedliche Statistiken verwenden (t-Test verwendet t-Statistik und ANOVA verwendet F-Statistik)?
regression
anova
t-test
Tim
quelle
quelle
Antworten:
Mit dem allgemeinen linearen Modell können wir ein ANOVA-Modell als Regressionsmodell schreiben. Nehmen wir an, wir haben zwei Gruppen mit jeweils zwei Beobachtungen, dh vier Beobachtungen in einem Vektory . Dann ist das ursprüngliche, überparametrisierte Modell E(y)=X⋆β⋆ , wobei X⋆ die Matrix von Prädiktoren ist, dh Dummy-codierte Indikatorvariablen:
Die Parameter sind nicht als identifizierbar, da X ⋆ Rang 2 hat ( ( X ⋆ ) ' X ⋆ ist nicht invertierbar). Um dies zu ändern, führen wir die Bedingung β ⋆ 1 = 0 (Behandlungskontraste) ein, die uns das neue Modell E ( y ) = X β gibt : (((X⋆)′X⋆)−1(X⋆)′E(y) X⋆ (X⋆)′X⋆ β⋆1= 0 E( y) = Xβ
So , dh ß 0 nimmt die Bedeutung des Erwartungswertes aus unserer Referenzkategorie (Gruppe 1). μ 2 = β 0 + β 2 , dh β 2 nimmt die Bedeutung der Differenz μ 2 - μ 1 zur Referenzkategorie an. Da mit zwei Gruppen nur ein Parameter mit dem Gruppeneffekt verknüpft ist, entspricht die ANOVA-Nullhypothese (alle Gruppeneffektparameter sind 0) der Regressionsgewicht-Nullhypothese (der Steigungsparameter ist 0).μ1=β0 β0 μ2=β0+β2 β2 μ2−μ1
Ein Test im allgemeinen linearen Modell testet eine Linearkombination ψ = ∑ c j β j der Parameter gegen einen hypothetischen Wert ψ 0 unter der Nullhypothese. Wenn wir c = ( 0 , 1 ) ' wählen, können wir die Hypothese prüfen, dass β 2 = 0 (der übliche Test für den Steigungsparameter) ist, dh hier gilt μ 2 - μ 1 = 0 . Der Schätzer ist ψ = Σ C jt ψ=∑cjβj ψ0 c=(0,1)′ β2=0 μ2−μ1=0 , wobei β =(X'X)-1X'ydie OLS Schätzwerte für die Parameter sind. Die allgemeine Teststatistik für solcheψist:
t= ψ -ψ0ψ^=∑cjβ^j β^=(X′X)−1X′y ψ
ist ein unverzerrter Schätzer für die Fehlervarianz, wo‖e‖2ist die Summe der quadrierten Residuen. Im Fall von zwei GruppenRank(X)=2,(X'X)-1X'=( .5 .5 0 0 -σ^2=∥e∥2/(n−Rank(X)) ∥e∥2 Rank(X)=2 und die Schätzer sind somit β 0=0,5y1+0,5y2=M1und β 2=-0,5y1-0,5y2+0,5y3+0,5y4=M2-M1. Mitc'(X'X)-(X′X)−1X′=(.5−.5.5−.50.50.5) β^0=0.5y1+0.5y2=M1 β^2=−0.5y1−0.5y2+0.5y3+0.5y4=M2−M1 c′(X′X)−1c being 1 in our case, the test statistic becomes:
With more than two groups, the ANOVA hypothesis (allβj are simultaneously 0, with 1≤j ) refers to more than one parameter and cannot be expressed as a linear combination ψ , so then the tests are not equivalent.
quelle
In 1, ANOVA will usually test factor variables and whether or not between group variance is significant. You'll clearly see the difference if your software allows indicator variables in a regression: for each dummy you'll get a p value saying whether this group scores significantly different from 0, and as a consequence significantly different than the reference group or reference value applicable. Usually, you won't see to what degree the indicator itself is important until you do an ANOVA test.
A F-test is a squared t-test. Therefore, in 2, it's the same.
quelle