Warum wird ANOVA so gelehrt / angewendet, als ob es sich um eine andere Forschungsmethode als die lineare Regression handelt?

91

ANOVA entspricht einer linearen Regression unter Verwendung geeigneter Dummy-Variablen. Die Schlussfolgerungen bleiben gleich, unabhängig davon, ob Sie ANOVA oder lineare Regression verwenden.

Gibt es im Lichte ihrer Äquivalenz einen Grund, warum ANOVA anstelle der linearen Regression verwendet wird?

Hinweis: Ich bin besonders daran interessiert, technische Gründe für die Verwendung von ANOVA anstelle von linearer Regression zu erfahren.

Bearbeiten

Hier ist ein Beispiel für die Verwendung einer Einweg-ANOVA. Angenommen, Sie möchten wissen, ob die durchschnittliche Körpergröße von Männern und Frauen gleich ist. Um Ihre Hypothese zu überprüfen, würden Sie Daten aus einer Zufallsstichprobe von Männern und Frauen (jeweils etwa 30) sammeln und die ANOVA-Analyse (dh die Summe der Quadrate nach Geschlecht und Fehler) durchführen, um zu entscheiden, ob ein Effekt vorliegt.

Sie können auch eine lineare Regression verwenden, um dies wie folgt zu testen:

Definieren Sie: wenn der Befragte männlich ist, und wenn nicht. wobei:0 Höhe = Achsenabschnitt + β Geschlecht + Fehler Fehler N ( 0 , σ 2 )Gender=10

Height=Intercept+βGender+error
errorN(0,σ2)

Dann ist ein Test, ob ist ein äquivalenter Test für Ihre Hypothese.β=0

gung
quelle
2
Wenn ich mich nicht irre, ist die lineare Regression die Schätzung von Koeffizienten, die eine gute lineare Abbildung von X nach Y definieren. Eine ANOVA ist ein Test, um festzustellen, ob es signifikante Unterschiede in X gibt, wenn Y zwei verschiedene Werte annimmt. Können Sie uns erklären, warum Sie denken, dass sie gleich sind?
Robin Girard
28
ANOVA kann als "syntaktischer Zucker" für eine spezielle Untergruppe linearer Regressionsmodelle angesehen werden. ANOVA wird regelmäßig von Forschern verwendet, die nach Ausbildung keine Statistiker sind. Sie sind jetzt "institutionalisiert" und es ist schwierig, sie wieder auf die allgemeinere Darstellung
umzustellen ;-)
3
Sie haben Ihren Kommentar positiv bewertet, aber Experimentatoren sind noch verrückter als ich dachte, wenn dies syntaktischer Zucker für sie ist! Welche Version ist intuitiver .... ANOVA-Hypothesentest zu : Ist das Verhältnis der erklärten zur ungeklärten Varianz ausreichend hoch? T-Test zum Term eines Regressionsmodells: Unterscheidet sich der Effekt von hinreichend von Null? Und mit der letztgenannten Formulierung erhalten Sie auch die Richtung des Wandels. Und wenn Sie die Daten transformieren mussten, können Sie die Parameterschätzung in eine physikalisch sinnvolle Größe zurücktransformieren. Im Gegensatz zu SS. β ββββ
f1r3br4nd

Antworten:

55

Als Ökonom wird die Varianzanalyse (ANOVA) in Bezug auf lineare Regression gelehrt und meist verstanden (z. B. in Arthur Goldbergers A Course in Econometrics ). Ökonomen / Ökonomen betrachten ANOVA normalerweise als uninteressant und ziehen es vor, direkt zu Regressionsmodellen überzugehen. Aus der Perspektive linearer (oder sogar verallgemeinerter linearer) Modelle ordnet ANOVA Koeffizienten in Gruppen zu, wobei jede Gruppe einer "Variationsquelle" in der ANOVA-Terminologie entspricht.

Im Allgemeinen können Sie die Schlussfolgerungen, die Sie aus ANOVA erhalten würden, mithilfe der Regression replizieren, jedoch nicht immer mithilfe der OLS-Regression. Mehrebenenmodelle werden für die Analyse hierarchischer Datenstrukturen benötigt, z. B. "Split-Plot-Designs", bei denen Zwischengruppeneffekte mit Fehlern auf Gruppenebene und gruppeninterne Effekte mit Fehlern auf Datenebene verglichen werden. Gelmans Artikel [1] geht sehr detailliert auf dieses Problem ein und argumentiert effektiv, dass ANOVA ein wichtiges statistisches Instrument ist, das immer noch um seiner selbst willen gelehrt werden sollte.

Insbesondere argumentiert Gelman, dass ANOVA ein Weg ist, Modelle mit mehreren Ebenen zu verstehen und zu strukturieren. Daher ist ANOVA keine Alternative zur Regression, sondern ein Werkzeug zur Zusammenfassung komplexer hochdimensionaler Inferenzen und zur explorativen Datenanalyse.

Gelman ist ein angesehener Statistiker, und man sollte seiner Ansicht etwas Glauben schenken. Fast alle empirischen Arbeiten, die ich mache, würden jedoch genauso gut durch lineare Regression gedient, und so falle ich fest in das Lager, sie als ein wenig sinnlos anzusehen. Einige Disziplinen mit komplexem Studiendesign (z. B. Psychologie) mögen ANOVA nützlich finden.

[1] Gelman, A. (2005). Varianzanalyse: Warum ist es wichtiger denn je (mit Diskussion). Annals of Statistics 33, 1–53. doi: 10.1214 / 009053604000001048

Graham Cookson
quelle
1
Danke für den Hinweis von Gelman. Ich werde seine Zeitung lesen. Aber können wir Multilevel-Modelle nicht mit klassischer Maximalwahrscheinlichkeit analysieren? Ich stimme zu, dass OLS für mehrstufige Modelle ineffizient / ungeeignet ist.
3
@Srikant - Es gibt viele Möglichkeiten, mit mehrstufigen Daten umzugehen, und Gelman ist "der König" auf diesem Gebiet. Sein Punkt ist, dass ANOVA eine einfache / übersichtliche Methode zur Erfassung der Schlüsselmerkmale komplexer und hierarchischer Datenstrukturen oder Studiendesigns ist und ANOVA eine einfache / übersichtliche Methode zur Darstellung der Schlüsselergebnisse. In diesem Sinne ist es eine komplementäre oder explorative Rolle.
Graham Cookson
1
+1 für eine schöne klare Antwort. Absatz 3 ist im Wesentlichen das, was ich als Biologiestudent gelernt habe, wobei der Schwerpunkt auf der Vereinfachung der Kombination kontinuierlicher und kategorialer unabhängiger Variablen in einem ANOVA-Framework liegt.
Freya Harrison
23

Ich denke, Grahams zweiter Absatz befasst sich mit der Sache. Ich vermute, es ist nicht so sehr technisch als historisch, wahrscheinlich aufgrund des Einflusses von " Statistical Methods for Research Workers " und der einfachen Vermittlung / Anwendung des Tools für Nicht-Statistiker bei experimentellen Analysen unter Einbeziehung diskreter Faktoren, anstatt sich mit Modellbildung zu befassen und zugehörige Tools. In der Statistik wird ANOVA in der Regel als Spezialfall der Regression gelehrt. (Ich denke, dies ähnelt dem Grund, warum die Biostatistik mit einer Vielzahl von gleichnamigen "Tests" gefüllt ist, anstatt den Modellbau zu betonen.)

ars
quelle
14

Ich würde sagen, dass einige von Ihnen den Begriff Regression verwenden, wenn Sie ein allgemeines lineares Modell verwenden sollten. Ich stelle mir Regression als ein Phänomen vor, das kontinuierliche Kovariaten umfasst. Wenn kontinuierliche Kovariaten mit Dummy-Variablen kombiniert werden, sollte dies als Analyse der Kovarianz bezeichnet werden. Wenn nur Dummy-Variablen verwendet werden, bezeichnen wir diese spezielle Form von glm als Varianzanalyse. Ich denke, die Varianzanalyse hat eine eindeutige zweite Bedeutung als das Verfahren zum Testen auf signifikante Koeffizienten in einem glm unter Verwendung der Zerlegung der Varianz in Modelltermkomponenten und die Fehlertermkomponente.

Michael Chernick
quelle
2
(+1) Ich habe auch sofort die mehrdeutige Terminologie "Regression" während der gesamten Diskussion zur Kenntnis genommen.
Stéphane Laurent
1
(+1) GLM könnte der beste Weg sein, verschiedene Bedeutungen zu entwirren. Es sollte auch beachtet werden, dass in der Geschichte der ANOVA Berechnungsverfahren verwendet wurden, die die Beziehung zwischen OLS und ANOVA verdecken. Die Nomenklatur könnte daher aus historischen Gründen gerechtfertigt sein.
Am
10

ANOVA kann mit kategorialen erklärenden Variablen (Faktoren) verwendet werden, die mehr als 2 Werte (Ebenen) annehmen, und gibt einen grundlegenden Test, dass die mittlere Antwort für jeden Wert gleich ist. Dies vermeidet das Regressionsproblem bei der Durchführung mehrerer paarweiser t-Tests zwischen diesen Ebenen:

  • Mehrere t-Tests mit einem festgelegten Signifikanzniveau von 5% würden ungefähr 5% zu falschen Ergebnissen führen.
  • Diese Tests sind nicht unabhängig voneinander. Der Vergleich der A-Pegel mit den B-Pegeln hängt mit dem Vergleich der A-Pegel mit den C-Pegeln zusammen, da die A-Daten in beiden Tests verwendet werden.

Es ist besser, Kontraste für verschiedene Kombinationen der zu testenden Faktorstufen zu verwenden.

Ηλίας
quelle
1
α=.05
7
(3) Ihre Antwort impliziert, dass das Problem der mehrfachen Vergleiche auf die OLS-Regression angewendet wird, was bei ordnungsgemäßer Durchführung nicht der Fall ist. Der richtige Weg, einen Faktor in einem Regressionskontext zu testen, besteht darin, das verschachtelte Modell mit allen Faktor-Dummies zu testen, die gegenüber dem vollständigen Modell mit allen Faktor-Dummies abgelegt wurden. Dieser Test ist identisch mit dem, den eine ANOVA durchführt. Es ist richtig, dass Sie die Tests der einzelnen Dummy-Variablen nicht verwenden sollten (was Sie hier vermutlich beschreiben wollen).
gung
3

ANOVA Sie testen, ob es signifikante Unterschiede zwischen den Grundgesamtheiten gibt. Wenn Sie mehr als zwei Grundgesamtheiten miteinander vergleichen, verwenden Sie einen F-Test.

In der Regressionsanalyse erstellen Sie ein Modell zwischen unabhängigen Variablen und einer abhängigen Variablen. Wenn Sie eine unabhängige Variable mit vier Ebenen haben, können Sie drei Dummy-Variablen verwenden und ein Regressionsmodell ausführen. Der F-Test für das Regressionsmodell, mit dem die Signifikanz des Regressionsmodells getestet wird, ist derselbe wie der F-Test, den Sie erhalten, wenn Sie die Differenz zwischen den Populationsmitteln testen. Wenn Sie eine schrittweise Regression ausführen, werden möglicherweise einige der Dummy-Variablen aus dem Modell entfernt, und Ihr F-Wert unterscheidet sich von dem, der bei der Durchführung eines ANOVA-Tests auftritt.

Jamal
quelle
5
Dies macht ANOVA zu einem Testverfahren und Regression zu einem Modellierungsverfahren, in dem Sie Tests durchführen können. ANOVA hat jedoch auch ein zugrunde liegendes Modell, unabhängig davon, ob dies in allen einleitenden Behandlungen betont wird. Diese Antwort erfasst also keinen Unterschied zwischen ihnen. Es wird auch nicht auf die Frage eingegangen, weshalb sie ungeachtet starker Ähnlichkeiten als unterschiedlich unterrichtet werden.
Nick Cox