R: Anova und lineare Regression

9

Ich bin neu in der Statistik und versuche, den Unterschied zwischen ANOVA und linearer Regression zu verstehen. Ich benutze R, um dies zu untersuchen. Ich habe verschiedene Artikel darüber gelesen, warum ANOVA und Regression unterschiedlich, aber immer noch gleich sind und wie sie visualisiert werden können usw. Ich denke, ich bin hübsch dort, aber ein bisschen fehlt noch.

Ich verstehe, dass ANOVA die Varianz innerhalb von Gruppen mit der Varianz zwischen Gruppen vergleicht, um festzustellen, ob zwischen einer der getesteten Gruppen ein Unterschied besteht oder nicht. ( https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA )

Für die lineare Regression habe ich in diesem Forum einen Beitrag gefunden, der besagt, dass dasselbe getestet werden kann, wenn wir testen, ob b (Steigung) = 0. ( Warum wird ANOVA gelehrt / verwendet, als ob es eine andere Forschungsmethode als die lineare Regression ist? )

Für mehr als zwei Gruppen fand ich eine Website mit folgenden Angaben:

Die Nullhypothese lautet:H.0::µ1=µ2=µ3

Das lineare Regressionsmodell lautet:y=b0+b1X1+b2X2+e

Die Ausgabe der linearen Regression ist dann jedoch der Achsenabschnitt für eine Gruppe und die Differenz zu diesem Achsenabschnitt für die beiden anderen Gruppen. ( http://www.real-statistics.com/multiple-regression/anova-using-regression/ )

Für mich sieht das so aus, als würden tatsächlich die Abschnitte verglichen und nicht die Pisten?

Ein weiteres Beispiel, in dem sie Abschnitte und nicht die Steigungen vergleichen, finden Sie hier: ( http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/ )

Ich habe jetzt Schwierigkeiten zu verstehen, was in der linearen Regression tatsächlich verglichen wird. die Pisten, die Abschnitte oder beides?

Paul
quelle
Siehe auch stats.stackexchange.com/questions/268006/…
kjetil b halvorsen

Antworten:

16

das sieht so aus, als würden tatsächlich die abschnitte verglichen und nicht die hänge?

Ihre Verwirrung dort bezieht sich auf die Tatsache, dass Sie sehr vorsichtig sein müssen, um klar zu sein, welche Abschnitte und Steigungen Sie meinen (Abschnitt von was? Steigung von was?).

Die Rolle eines Koeffizienten eines 0-1 dummy in einer Regression kann als eine Steigung von sowohl gedacht werden und als Differenz der Schnittpunkte .

Lassen Sie uns die Dinge so weit wie möglich vereinfachen, indem wir einen Fall mit zwei Stichproben betrachten.

Wir können immer noch eine Einweg-ANOVA mit zwei Stichproben durchführen, aber es stellt sich heraus, dass dies im Wesentlichen dasselbe ist wie ein zweiseitiger Zwei-Stichproben-T-Test (der Fall gleicher Varianz).

Hier ist ein Diagramm der Bevölkerungssituation:

Zwei-Gruppen-Mittel als Regression, Bevölkerungssituation

Wenn , dann ist das lineare Populationsmodellδ=μ2- -μ1

y=μ1+δx+e

so dass , wenn (was der Fall ist , wenn wir in der Gruppe 1 sind), der Mittelwert von ist und wenn (wenn wir in der Gruppe sind 2) der Mittelwert, ist .x=0yμ1+δ×0=μ1x=1yμ1+δ×1=μ1+μ2- -μ1=μ2

Das ist der Koeffizient der Steigung ( in diesem Fall ), und die Differenz der Mittelwerte (und Sie können sich diese Mittelwerte als Abschnitte vorstellen) ist dieselbe Größe.δ

Um die Konkretheit zu verbessern, sind hier zwei Beispiele:

Group1:  9.5  9.8 11.8
Group2: 11.0 13.4 12.5 13.9

Wie sehen sie aus?

Beispielplot

Wie sieht der Test der Mittelwertunterschiede aus?

Als T-Test:

    Two Sample t-test

data:  values by group
t = -5.0375, df = 5, p-value = 0.003976
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -4.530882 -1.469118
sample estimates:
mean in group g1 mean in group g2 
             9.9             12.9 

Als Regression:

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   9.9000     0.4502  21.991 3.61e-06 ***
groupg2       3.0000     0.5955   5.037  0.00398 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 0.7797 on 5 degrees of freedom
Multiple R-squared:  0.8354,    Adjusted R-squared:  0.8025 
F-statistic: 25.38 on 1 and 5 DF,  p-value: 0.003976

Wir können in der Regression sehen, dass der Intercept-Term der Mittelwert der Gruppe 1 ist und der Groupg2-Koeffizient (Steigungskoeffizient) die Differenz der Gruppenmittelwerte ist. Inzwischen ist der p-Wert für die Regression der gleiche wie der p-Wert für den t-Test (0,003976)

Glen_b - Monica neu starten
quelle
Vielen Dank für dieses äußerst hilfreiche Beispiel. Mir ist gerade klar geworden, dass noch eine Frage offen ist. Ich verstehe nicht, warum die Steigung als μ2 - μ1 bezeichnet wird. Ist die Steigung nicht definiert als m = Delta Y / Delta X?
Paul
2
Es ist; aber und und so . Kurz gesagt, wenn Sie als 0/1 codieren, ist die Steigung die Differenz. Δx=1- -0=1Δy=(μ1+δ×1)- -(μ1+δ×0)=δ=μ2- -μ1Δy/.Δx=(μ2- -μ1)/.1=μ2- -μ1
Glen_b -State Monica
+1 Die grafische Darstellung, warum Steigung gleich Differenz auf Mittel ist, hat mir sehr geholfen !!
Haitao Du