Regression vs. ANOVA-Diskrepanz (aov vs lm in R)

21

Ich hatte immer den Eindruck, dass die Regression nur eine allgemeinere Form der ANOVA ist und die Ergebnisse identisch wären. In letzter Zeit habe ich jedoch sowohl eine Regression als auch eine ANOVA mit denselben Daten durchgeführt, und die Ergebnisse unterscheiden sich erheblich. Das heißt, im Regressionsmodell sind sowohl die Haupteffekte als auch die Interaktion signifikant, während in der ANOVA ein Haupteffekt nicht signifikant ist. Ich gehe davon aus, dass dies etwas mit der Interaktion zu tun hat, aber mir ist nicht klar, was an diesen beiden Arten der Modellierung derselben Frage anders ist. Wenn es wichtig ist, ist ein Prädiktor kategorial und der andere kontinuierlich, wie in der folgenden Simulation angegeben.

Hier ist ein Beispiel dafür, wie meine Daten aussehen und welche Analysen ausgeführt werden, ohne dass dieselben p-Werte oder Effekte in den Ergebnissen von Bedeutung sind (meine tatsächlichen Ergebnisse sind oben aufgeführt):

group<-c(1,1,1,0,0,0)
moderator<-c(1,2,3,4,5,6)
score<-c(6,3,8,5,7,4)

summary(lm(score~group*moderator))
summary(aov(score~group*moderator))
Rebecca
quelle
summary (lm ()) gibt Ihnen die Koeffizienten für die von Ihnen angegebenen Kontraste an, bei denen es sich um Behandlungskontraste handelt, die hier nicht angegeben wurden. Während summary (aov ()) die anova-Tabelle ausgibt. Wenn Sie die Anova für das lm-Modell wollen, brauchen Sie anova (lm ())
Matt Albrecht
groupist ein numerischer Vektor, ist dies beabsichtigt? Normalerweise sollten Gruppierungsfaktoren eine Klasse haben factor, so dass die Umwandlung in Kontraste durch Funktionen wie automatisch gehandhabt werden kann lm(). Dies wird deutlich, wenn Sie mehr als zwei Gruppen haben oder eine andere Codierung als 0/1 für Ihre groupVariable verwenden.
caracal
Siehe auch stats.stackexchange.com/questions/268006/…
kjetil b halvorsen

Antworten:

17

Die summaryFunktion ruft je nach Klasse des Objekts verschiedene Methoden auf. Der Unterschied liegt nicht im aovVergleich lm, sondern in den Informationen zu den Modellen. Wenn Sie beispielsweise anova(mod1)und anova(mod2)verwenden, sollten Sie dieselben Ergebnisse erzielen.

Wie @Glen sagt, ist der Schlüssel, ob die gemeldeten Tests auf Quadratsummen vom Typ 1 oder Typ 3 basieren. Diese unterscheiden sich, wenn die Korrelation zwischen Ihren erklärenden Variablen nicht genau 0 ist. Wenn sie korreliert sind, sind einige SS für einen Prädiktor und einige für den anderen eindeutig, einige SS können jedoch einem oder beiden zugeordnet werden. ( Sie können sich das vorstellen, indem Sie sich das MasterCard-Symbol vorstellen- Es gibt einen kleinen Überlappungsbereich in der Mitte.) In dieser Situation gibt es keine eindeutige Antwort, und dies ist leider die Norm für nicht experimentelle Daten. Ein Ansatz besteht darin, dass der Analytiker sein Urteilsvermögen nutzt und die überlappende SS einer der Variablen zuordnet. Diese Variable geht zuerst in das Modell ein. Die andere Variable geht in die Modellsekunde und ruft die SS ab, die aussieht wie ein Keks, aus dem ein Bissen genommen wurde. Die Wirkung kann durch das getestet werden, was manchmal alsR2ändern oder F ändern. Dieser Ansatz verwendet SS vom Typ 1. Alternativ können Sie dies zweimal mit jeder ersten Eingabe tun und den F-Änderungstest für beide Prädiktoren melden. Auf diese Weise erhält keine Variable die SS aufgrund der Überlappung. Dieser Ansatz verwendet Typ 3 SS. (Ich sollte Ihnen auch sagen, dass der letztgenannte Ansatz wenig beachtet wird.)

Nach dem Vorschlag von @BrettMagill im Kommentar unten kann ich versuchen, dies etwas klarer zu machen. (Beachten Sie, dass ich in meinem Beispiel nur 2 Prädiktoren und keine Interaktion verwende, aber diese Idee kann so skaliert werden, dass sie alles beinhaltet, was Sie möchten.)

Typ 1: SS (A) und SS (B | A)

Typ 3: SS (A | B) und SS (B | A)

gung - Wiedereinsetzung von Monica
quelle
1
Dies ist eine schöne Beschreibung des Problems. Sie könnten den Text ein wenig klären: Typ I: SS_A = SS (A) SS_B = SS (B | A) und SS_AB = SS (AB | B, A) Typ III: SS_A = SS (A | B, AB ) und SS_B = SS (B | A, AB) und SS_AB = SS (AB | A, B)
Brett
1
Vielen Dank für deine Hilfe. Ich verstehe jetzt, was in Bezug auf die Unterschiede zwischen diesen Modellen vor sich geht, aber ich bin mir immer noch nicht sicher, wann es angemessen wäre, entweder ein Anova- oder ein Regressionsmodell zu verwenden. Mein Berater berät anova, aber mir wurde immer beigebracht, Regression anzuwenden, und ich bin mir nicht sicher, welche Methode besser geeignet ist, wenn die Ergebnisse unterschiedlich sind. Haben Sie Beispiele oder eine Ressource, über die Sie Auskunft geben können, wann dies angemessen wäre? Danke nochmal für deine Hilfe.
Rebecca
1
Es tut mir leid, ich folge nicht ganz. Mein Punkt ist, dass die Modelle nicht wirklich unterschiedlich sind. Eine ANOVA ist eine Regression mit allen qualitativen Prädiktoren. Wenn Sie ein Regressionsmodell mit kontinuierlichen und qualitativen Prädiktoren haben und zuerst den kontinuierlichen Prädiktor eingeben, dann die qualitativen Prädiktoren (jedoch ohne Interaktionsbegriff), die ANCOVA sind. Beide Ansätze sind in Ordnung, da sie hinter den Kulissen identisch sind. Normalerweise codiere ich dies als Regression, aber das ist eine Frage des Stils. OTOH, wenn Ihr Berater möchte, dass es im ANOVA-Stil läuft, dann gehen Sie diesen Weg, da es keinen Unterschied gibt.
gung - Wiedereinsetzung von Monica
2
Ein paar Dinge: (3 nach oben) Eine Interaktion bedeutet nicht, dass Ihre unabhängigen Variablen korreliert sind. Dies sind nur verschiedene Dinge. (2 nach oben) Wenn Modell 3 signifikant besser ist als Modell 2, dann deutet dies darauf hin, dass die Interaktion signifikant ist (da die Interaktion das einzige ist, was sich zwischen ihnen unterscheidet). (1 aufwärts) Sie möchten vermeiden, nur nach signifikanten Effekten zu fischen, es sei denn, Sie denken an Ihre Studie als Pilot, mit der Sie eine nachfolgende Bestätigungsstudie planen (in diesem Fall denke ich, dass Sie in Ordnung sind). Ich nehme an, Sie haben diese Studie durchgeführt, um sich alle drei anzuschauen. Gehen Sie also zu Modell 3.
gung - Reinstate Monica
2
Darüber hinaus impliziert eine Interaktion, dass Sie die Haupteffekte nicht interpretieren sollten, sodass die Darstellung von Modell 1 gefährlich irreführend sein kann. Wenn Sie weitere Informationen zu SS-Typen wünschen, habe ich hier eine ziemlich umfassende Antwort geschrieben: stats.stackexchange.com/questions/20452/… Außerdem sollten Sie eine der Antworten akzeptieren, indem Sie irgendwann auf das Häkchen neben klicken einer von ihnen.
gung - Reinstate Monica
10

Die Ergebnisse der Ausgabe von aov geben Ihnen Wahrscheinlichkeiten basierend auf der Quadratsumme vom Typ 1. Aus diesem Grund ist das Interaktionsergebnis dasselbe und die Haupteffekte unterscheiden sich.

Wenn Sie Wahrscheinlichkeiten verwenden, die auf der Summe der Quadrate vom Typ 3 basieren, stimmen diese mit den Ergebnissen der linearen Regression überein.

library(car)
Anova(aov(score~group*moderator),type=3)
Tal
quelle
5
Lineare Modelle und ANOVA sind gleichwertig, wenn die Modelle dieselben Hypothesen testen und die Parametrisierung der Faktoren gleichwertig ist. Sogenannte "Typ I" - und "Typ III" -Summen sind Quadrate, die lediglich Tests verschiedener zugrunde liegender Hypothesen darstellen (Auswirkungen aufeinanderfolgender Quadratsummen auf marginale Quadratsummen). ANOVA tendiert dazu, einige dieser Entscheidungen so zu verbergen, wie sie in vielen Paketen implementiert sind - eine Tatsache, die mich glauben lässt, dass das tatsächliche Aufstellen und Testen der Hypothesen von Interesse durch Faktorparametrisierung und Modellvergleich in GLM ein überlegener Ansatz ist.
Brett
+1, ich glaube du hast einen Tippfehler. Ich benutze Typ 1 SS und aov Typ 3 SS.
gung - Wiedereinsetzung von Monica
2
Typ III (Rand) Quadratsummen werden standardmäßig in lm verwendet. AOV würde standardmäßig Typ I (Sequential) verwenden. Die Reihenfolge der LM-Ergebnisse ist unveränderlich, während alle Ergebnisse von der Reihenfolge der Faktoren abhängen.
Brett
Ich dachte, dass sowohl ich als auch aov standardmäßig den Typ I verwendeten, daher die Verwendung von Kapital A Anova () für Typ II und III.
Matt Albrecht
6
Im Allgemeinen Anova(..., type=3)wird nicht Sie richtigen Typ III SS geben, es sei denn , Sie auch von der Behandlung Kontrasten (Standard in R) Effekt - Schalter Codierung für ungeordnete Faktoren ( options(contrasts=c("contr.sum", "contr.poly"))) oder eine andere Summe auf Null Kontrast Codes (zB Helmert). Dies wird deutlich, wenn Sie unausgeglichene Zellengrößen und mehr als zwei Gruppen haben. Dies wird auch auf der Hilfeseite für erwähnt Anova().
caracal
-2

Der Hauptunterschied zwischen der linearen Regression und der ANOVA besteht darin, dass die Prädiktorvariablen in der ANOVA diskret sind (dh, sie haben unterschiedliche Ebenen). Während bei der linearen Regression die Prädiktorvariablen kontinuierlich sind.

vivek
quelle
3
Dies ist im Allgemeinen nicht wahr.
Michael R. Chernick
Ich habe es irgendwo im Internet gelesen. Können Sie bitte den Hauptunterschied erklären? Ich bin ein Neuling.
Vivek