ANOVA entspricht einer linearen Regression unter Verwendung geeigneter Dummy-Variablen. Die Schlussfolgerungen bleiben gleich, unabhängig davon, ob Sie ANOVA oder lineare Regression verwenden.
Gibt es im Lichte ihrer Äquivalenz einen Grund, warum ANOVA anstelle der linearen Regression verwendet wird?
Hinweis: Ich bin besonders daran interessiert, technische Gründe für die Verwendung von ANOVA anstelle von linearer Regression zu erfahren.
Bearbeiten
Hier ist ein Beispiel für die Verwendung einer Einweg-ANOVA. Angenommen, Sie möchten wissen, ob die durchschnittliche Körpergröße von Männern und Frauen gleich ist. Um Ihre Hypothese zu überprüfen, würden Sie Daten aus einer Zufallsstichprobe von Männern und Frauen (jeweils etwa 30) sammeln und die ANOVA-Analyse (dh die Summe der Quadrate nach Geschlecht und Fehler) durchführen, um zu entscheiden, ob ein Effekt vorliegt.
Sie können auch eine lineare Regression verwenden, um dies wie folgt zu testen:
Definieren Sie: wenn der Befragte männlich ist, und wenn nicht. wobei:0 Höhe = Achsenabschnitt + β ∗ Geschlecht + Fehler Fehler ∼ N ( 0 , σ 2 )
Dann ist ein Test, ob ist ein äquivalenter Test für Ihre Hypothese.
quelle
Antworten:
Als Ökonom wird die Varianzanalyse (ANOVA) in Bezug auf lineare Regression gelehrt und meist verstanden (z. B. in Arthur Goldbergers A Course in Econometrics ). Ökonomen / Ökonomen betrachten ANOVA normalerweise als uninteressant und ziehen es vor, direkt zu Regressionsmodellen überzugehen. Aus der Perspektive linearer (oder sogar verallgemeinerter linearer) Modelle ordnet ANOVA Koeffizienten in Gruppen zu, wobei jede Gruppe einer "Variationsquelle" in der ANOVA-Terminologie entspricht.
Im Allgemeinen können Sie die Schlussfolgerungen, die Sie aus ANOVA erhalten würden, mithilfe der Regression replizieren, jedoch nicht immer mithilfe der OLS-Regression. Mehrebenenmodelle werden für die Analyse hierarchischer Datenstrukturen benötigt, z. B. "Split-Plot-Designs", bei denen Zwischengruppeneffekte mit Fehlern auf Gruppenebene und gruppeninterne Effekte mit Fehlern auf Datenebene verglichen werden. Gelmans Artikel [1] geht sehr detailliert auf dieses Problem ein und argumentiert effektiv, dass ANOVA ein wichtiges statistisches Instrument ist, das immer noch um seiner selbst willen gelehrt werden sollte.
Insbesondere argumentiert Gelman, dass ANOVA ein Weg ist, Modelle mit mehreren Ebenen zu verstehen und zu strukturieren. Daher ist ANOVA keine Alternative zur Regression, sondern ein Werkzeug zur Zusammenfassung komplexer hochdimensionaler Inferenzen und zur explorativen Datenanalyse.
Gelman ist ein angesehener Statistiker, und man sollte seiner Ansicht etwas Glauben schenken. Fast alle empirischen Arbeiten, die ich mache, würden jedoch genauso gut durch lineare Regression gedient, und so falle ich fest in das Lager, sie als ein wenig sinnlos anzusehen. Einige Disziplinen mit komplexem Studiendesign (z. B. Psychologie) mögen ANOVA nützlich finden.
[1] Gelman, A. (2005). Varianzanalyse: Warum ist es wichtiger denn je (mit Diskussion). Annals of Statistics 33, 1–53. doi: 10.1214 / 009053604000001048
quelle
Ich denke, Grahams zweiter Absatz befasst sich mit der Sache. Ich vermute, es ist nicht so sehr technisch als historisch, wahrscheinlich aufgrund des Einflusses von " Statistical Methods for Research Workers " und der einfachen Vermittlung / Anwendung des Tools für Nicht-Statistiker bei experimentellen Analysen unter Einbeziehung diskreter Faktoren, anstatt sich mit Modellbildung zu befassen und zugehörige Tools. In der Statistik wird ANOVA in der Regel als Spezialfall der Regression gelehrt. (Ich denke, dies ähnelt dem Grund, warum die Biostatistik mit einer Vielzahl von gleichnamigen "Tests" gefüllt ist, anstatt den Modellbau zu betonen.)
quelle
Ich würde sagen, dass einige von Ihnen den Begriff Regression verwenden, wenn Sie ein allgemeines lineares Modell verwenden sollten. Ich stelle mir Regression als ein Phänomen vor, das kontinuierliche Kovariaten umfasst. Wenn kontinuierliche Kovariaten mit Dummy-Variablen kombiniert werden, sollte dies als Analyse der Kovarianz bezeichnet werden. Wenn nur Dummy-Variablen verwendet werden, bezeichnen wir diese spezielle Form von glm als Varianzanalyse. Ich denke, die Varianzanalyse hat eine eindeutige zweite Bedeutung als das Verfahren zum Testen auf signifikante Koeffizienten in einem glm unter Verwendung der Zerlegung der Varianz in Modelltermkomponenten und die Fehlertermkomponente.
quelle
ANOVA kann mit kategorialen erklärenden Variablen (Faktoren) verwendet werden, die mehr als 2 Werte (Ebenen) annehmen, und gibt einen grundlegenden Test, dass die mittlere Antwort für jeden Wert gleich ist. Dies vermeidet das Regressionsproblem bei der Durchführung mehrerer paarweiser t-Tests zwischen diesen Ebenen:
Es ist besser, Kontraste für verschiedene Kombinationen der zu testenden Faktorstufen zu verwenden.
quelle
ANOVA Sie testen, ob es signifikante Unterschiede zwischen den Grundgesamtheiten gibt. Wenn Sie mehr als zwei Grundgesamtheiten miteinander vergleichen, verwenden Sie einen F-Test.
In der Regressionsanalyse erstellen Sie ein Modell zwischen unabhängigen Variablen und einer abhängigen Variablen. Wenn Sie eine unabhängige Variable mit vier Ebenen haben, können Sie drei Dummy-Variablen verwenden und ein Regressionsmodell ausführen. Der F-Test für das Regressionsmodell, mit dem die Signifikanz des Regressionsmodells getestet wird, ist derselbe wie der F-Test, den Sie erhalten, wenn Sie die Differenz zwischen den Populationsmitteln testen. Wenn Sie eine schrittweise Regression ausführen, werden möglicherweise einige der Dummy-Variablen aus dem Modell entfernt, und Ihr F-Wert unterscheidet sich von dem, der bei der Durchführung eines ANOVA-Tests auftritt.
quelle