ANOVA gegen multiple lineare Regression?
Ich verstehe, dass diese beiden Methoden anscheinend dasselbe statistische Modell verwenden. Unter welchen Umständen sollte ich jedoch welche Methode anwenden?
Was sind die Vor- und Nachteile dieser Methoden im Vergleich?
Warum wird ANOVA in experimentellen Studien so häufig verwendet und ich finde kaum eine Regressionsstudie?
anova
multiple-regression
least-squares
florian
quelle
quelle
Antworten:
Es wäre interessant zu verstehen, dass die Abweichung in der Art der Variablen und insbesondere in der Art der erklärenden Variablen besteht . In der typischen ANOVA haben wir eine kategoriale Variable mit verschiedenen Gruppen und wir versuchen festzustellen, ob sich die Messung einer kontinuierlichen Variablen zwischen den Gruppen unterscheidet. Andererseits wird OLS in erster Linie als ein Versuch angesehen, die Beziehung zwischen einem kontinuierlichen Regressanten oder einer Antwortvariablen und einem oder mehreren Regressoren oder erklärenden Variablen zu bewerten . In diesem Sinne kann die Regression als eine andere Technik angesehen werden, die dazu geeignet ist, Werte basierend auf einer Regressionslinie vorherzusagen.
Dieser Unterschied steht jedoch nicht in Zusammenhang mit der Ausweitung der ANOVA auf den Rest der Varianz-Alphabetsuppe (ANCOVA, MANOVA, MANCOVA). oder die Einbeziehung von Dummy-codierten Variablen in die OLS-Regression. Ich bin mir nicht sicher, welche historischen Wahrzeichen es gibt, aber es ist, als hätten beide Techniken parallele Anpassungen erfahren, um immer komplexer werdende Modelle in Angriff zu nehmen.
Beispielsweise können wir feststellen, dass die Unterschiede zwischen ANCOVA und OLS mit Dummy-Variablen (oder kategorialen Variablen) (in beiden Fällen mit Wechselwirkungen) höchstens kosmetischer Natur sind. Bitte entschuldigen Sie meine Abkehr von den Beschränkungen im Titel Ihrer Frage in Bezug auf die multiple lineare Regression.
In beiden Fällen ist das Modell im Wesentlichen identisch mit dem Punkt, an dem in R die
lm
Funktion zur Ausführung von ANCOVA verwendet wird . Sie kann jedoch in Bezug auf die Einbeziehung eines Abschnitts, der der ersten Ebene (oder Gruppe) der Faktorvariablen (oder der kategorialen Variablen) im Regressionsmodell entspricht, als unterschiedlich dargestellt werden.In einem ausgeglichenen Modell (gleich große Gruppen, n 1 , 2 , ⋯i ) und nur eine Kovariate (um die Matrixdarstellung zu vereinfachen), kann die Modellmatrix in ANCOVA als eine Variation von:n1,2,⋯i
für Gruppen der Faktorvariablen, ausgedrückt als Blockmatrizen.3
Dies entspricht einem linearen Modell:
mit α i , das der unterschiedlichen Gruppe entspricht, bedeutet in einem ANOVA-Modell, während die unterschiedlichen β die Steigungen der Kovariate für jede der Gruppen sind.
Die Darstellung desselben Modells im Regressionsfeld und insbesondere in R berücksichtigt einen Gesamtabschnitt, der einer der Gruppen entspricht, und die Modellmatrix könnte wie folgt dargestellt werden:
der OLS-Gleichung:
.
In diesem Modell wird der Gesamtabschnitt auf jeder Gruppenebene um μ i modifiziert , und die Gruppen haben auch unterschiedliche Steigungen.β0 μi
Wie Sie aus den Modellmatrizen ersehen können, widerspricht die Darstellung der tatsächlichen Identität zwischen Regression und Varianzanalyse.
Ich mag Art verifiziert dies mit einigen Zeilen Code und meinem Lieblings - Datensatz
mtcars
in R . Ich verwendelm
für ANCOVA gemäß Ben Bolkers Artikel, der hier verfügbar ist .In Bezug auf den Teil der Frage, welche Methode zu verwenden ist (Regression mit R!), Finden Sie diesen Online-Kommentar, auf den ich beim Schreiben dieses Beitrags gestoßen bin, vielleicht amüsant .
quelle
ANOVA- und OLS-Regression sind in Fällen, in denen Ihre Prädiktoren kategorisch sind (in Bezug auf die Schlussfolgerungen, die Sie aus der Teststatistik ziehen), mathematisch identisch. Anders ausgedrückt handelt es sich bei der ANOVA um einen speziellen Regressionsfall. Es gibt nichts, was eine ANOVA Ihnen sagen könnte, dass sich Regression nicht von selbst ableiten lässt. Das Gegenteil ist jedoch nicht der Fall. ANOVA kann nicht für die Analyse mit kontinuierlichen Variablen verwendet werden. Daher könnte ANOVA als die eingeschränktere Technik eingestuft werden. Die Regression ist jedoch für weniger erfahrene Analysten nicht immer so praktisch. Beispielsweise generieren die meisten ANOVA-Skripte automatisch Interaktionsterme. Wie bei der Regression müssen Sie diese Termini häufig mithilfe der Software manuell berechnen. Die weit verbreitete Verwendung von ANOVA ist teilweise ein Relikt statistischer Analysen vor dem Einsatz leistungsfähigerer statistischer Software. und meiner Meinung nach eine einfachere Technik, um unerfahrenen Schülern beizubringen, deren Ziel ein relativ oberflächliches Verständnis ist, das es ihnen ermöglicht, Daten mit einem statistischen Basispaket zu analysieren. Probieren Sie es einmal aus ... Untersuchen Sie die t-Statistik, die eine grundlegende Regression ausgibt, quadrieren Sie sie und vergleichen Sie sie dann mit dem F-Verhältnis aus der ANOVA für dieselben Daten. Identisch!
quelle
Der Hauptnutzen von ANOVA gegenüber der Regression liegt meiner Meinung nach in der Ausgabe. Wenn Sie an der statistischen Signifikanz der kategorialen Variablen (Faktor) als Block interessiert sind, bietet Ihnen ANOVA diesen Test an. Bei der Regression wird die kategoriale Variable in Abhängigkeit von der Anzahl der Kategorien durch zwei oder mehr Dummy - Variablen dargestellt. Daher stehen Ihnen zwei oder mehr statistische Tests zur Verfügung, bei denen jeweils der Mittelwert für die jeweilige Kategorie mit dem Mittelwert der Nullkategorie (oder der Nullkategorie) verglichen wird Gesamtmittelwert, abhängig von der Dummy-Codierungsmethode). Beides ist möglicherweise nicht von Interesse. Daher müssen Sie eine Analyse nach der Schätzung (im Wesentlichen ANOVA) durchführen, um den Gesamttest des gewünschten Faktors zu erhalten.
quelle
Der Hauptvorteil der linearen Regression besteht darin, dass sie gegenüber der Verletzung der Homogenität der Varianz robust ist, wenn die Stichprobengrößen über Gruppen hinweg ungleich sind. Zum anderen können mehrere Kovariaten einbezogen werden (dies kann jedoch auch über ANCOVA problemlos durchgeführt werden, wenn Sie nur eine Kovariate einbeziehen möchten). Die Regression verbreitete sich in den siebziger Jahren mit dem Aufkommen von Fortschritten bei der Rechenleistung. Eine Regression bietet sich auch an, wenn Sie die Unterschiede zwischen bestimmten Ebenen einer kategorialen Variablen besonders untersuchen möchten, wenn mehr als zwei Ebenen vorhanden sind (sofern Sie die Dummy-Variable in der Regression so eingerichtet haben, dass eine dieser beiden Ebenen vorhanden ist repräsentiert die Referenzgruppe).
quelle