Ich bin neu in der Statistik und versuche, den Unterschied zwischen ANOVA und linearer Regression zu verstehen. Ich benutze R, um dies zu untersuchen. Ich habe verschiedene Artikel darüber gelesen, warum ANOVA und Regression unterschiedlich, aber immer noch gleich sind und wie sie visualisiert werden können usw. Ich denke, ich bin hübsch dort, aber ein bisschen fehlt noch.
Ich verstehe, dass ANOVA die Varianz innerhalb von Gruppen mit der Varianz zwischen Gruppen vergleicht, um festzustellen, ob zwischen einer der getesteten Gruppen ein Unterschied besteht oder nicht. ( https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA )
Für die lineare Regression habe ich in diesem Forum einen Beitrag gefunden, der besagt, dass dasselbe getestet werden kann, wenn wir testen, ob b (Steigung) = 0. ( Warum wird ANOVA gelehrt / verwendet, als ob es eine andere Forschungsmethode als die lineare Regression ist? )
Für mehr als zwei Gruppen fand ich eine Website mit folgenden Angaben:
Die Nullhypothese lautet:
Das lineare Regressionsmodell lautet:
Die Ausgabe der linearen Regression ist dann jedoch der Achsenabschnitt für eine Gruppe und die Differenz zu diesem Achsenabschnitt für die beiden anderen Gruppen. ( http://www.real-statistics.com/multiple-regression/anova-using-regression/ )
Für mich sieht das so aus, als würden tatsächlich die Abschnitte verglichen und nicht die Pisten?
Ein weiteres Beispiel, in dem sie Abschnitte und nicht die Steigungen vergleichen, finden Sie hier: ( http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/ )
Ich habe jetzt Schwierigkeiten zu verstehen, was in der linearen Regression tatsächlich verglichen wird. die Pisten, die Abschnitte oder beides?
quelle
Antworten:
Ihre Verwirrung dort bezieht sich auf die Tatsache, dass Sie sehr vorsichtig sein müssen, um klar zu sein, welche Abschnitte und Steigungen Sie meinen (Abschnitt von was? Steigung von was?).
Die Rolle eines Koeffizienten eines 0-1 dummy in einer Regression kann als eine Steigung von sowohl gedacht werden und als Differenz der Schnittpunkte .
Lassen Sie uns die Dinge so weit wie möglich vereinfachen, indem wir einen Fall mit zwei Stichproben betrachten.
Wir können immer noch eine Einweg-ANOVA mit zwei Stichproben durchführen, aber es stellt sich heraus, dass dies im Wesentlichen dasselbe ist wie ein zweiseitiger Zwei-Stichproben-T-Test (der Fall gleicher Varianz).
Hier ist ein Diagramm der Bevölkerungssituation:
Wenn , dann ist das lineare Populationsmodellδ= μ2- μ1
so dass , wenn (was der Fall ist , wenn wir in der Gruppe 1 sind), der Mittelwert von ist und wenn (wenn wir in der Gruppe sind 2) der Mittelwert, ist .x = 0 y μ1+ δ× 0 = μ1 x = 1 y μ1+ δ× 1 = μ1+ μ2- μ1= μ2
Das ist der Koeffizient der Steigung ( in diesem Fall ), und die Differenz der Mittelwerte (und Sie können sich diese Mittelwerte als Abschnitte vorstellen) ist dieselbe Größe.δ
Um die Konkretheit zu verbessern, sind hier zwei Beispiele:
Wie sehen sie aus?
Wie sieht der Test der Mittelwertunterschiede aus?
Als T-Test:
Als Regression:
Wir können in der Regression sehen, dass der Intercept-Term der Mittelwert der Gruppe 1 ist und der Groupg2-Koeffizient (Steigungskoeffizient) die Differenz der Gruppenmittelwerte ist. Inzwischen ist der p-Wert für die Regression der gleiche wie der p-Wert für den t-Test (0,003976)
quelle