Ich hatte immer den Eindruck, dass die Regression nur eine allgemeinere Form der ANOVA ist und die Ergebnisse identisch wären. In letzter Zeit habe ich jedoch sowohl eine Regression als auch eine ANOVA mit denselben Daten durchgeführt, und die Ergebnisse unterscheiden sich erheblich. Das heißt, im Regressionsmodell sind sowohl die Haupteffekte als auch die Interaktion signifikant, während in der ANOVA ein Haupteffekt nicht signifikant ist. Ich gehe davon aus, dass dies etwas mit der Interaktion zu tun hat, aber mir ist nicht klar, was an diesen beiden Arten der Modellierung derselben Frage anders ist. Wenn es wichtig ist, ist ein Prädiktor kategorial und der andere kontinuierlich, wie in der folgenden Simulation angegeben.
Hier ist ein Beispiel dafür, wie meine Daten aussehen und welche Analysen ausgeführt werden, ohne dass dieselben p-Werte oder Effekte in den Ergebnissen von Bedeutung sind (meine tatsächlichen Ergebnisse sind oben aufgeführt):
group<-c(1,1,1,0,0,0)
moderator<-c(1,2,3,4,5,6)
score<-c(6,3,8,5,7,4)
summary(lm(score~group*moderator))
summary(aov(score~group*moderator))
quelle
group
ist ein numerischer Vektor, ist dies beabsichtigt? Normalerweise sollten Gruppierungsfaktoren eine Klasse habenfactor
, so dass die Umwandlung in Kontraste durch Funktionen wie automatisch gehandhabt werden kannlm()
. Dies wird deutlich, wenn Sie mehr als zwei Gruppen haben oder eine andere Codierung als 0/1 für Ihregroup
Variable verwenden.Antworten:
Die
summary
Funktion ruft je nach Klasse des Objekts verschiedene Methoden auf. Der Unterschied liegt nicht imaov
Vergleichlm
, sondern in den Informationen zu den Modellen. Wenn Sie beispielsweiseanova(mod1)
undanova(mod2)
verwenden, sollten Sie dieselben Ergebnisse erzielen.Wie @Glen sagt, ist der Schlüssel, ob die gemeldeten Tests auf Quadratsummen vom Typ 1 oder Typ 3 basieren. Diese unterscheiden sich, wenn die Korrelation zwischen Ihren erklärenden Variablen nicht genau 0 ist. Wenn sie korreliert sind, sind einige SS für einen Prädiktor und einige für den anderen eindeutig, einige SS können jedoch einem oder beiden zugeordnet werden. ( Sie können sich das vorstellen, indem Sie sich das MasterCard-Symbol vorstellen- Es gibt einen kleinen Überlappungsbereich in der Mitte.) In dieser Situation gibt es keine eindeutige Antwort, und dies ist leider die Norm für nicht experimentelle Daten. Ein Ansatz besteht darin, dass der Analytiker sein Urteilsvermögen nutzt und die überlappende SS einer der Variablen zuordnet. Diese Variable geht zuerst in das Modell ein. Die andere Variable geht in die Modellsekunde und ruft die SS ab, die aussieht wie ein Keks, aus dem ein Bissen genommen wurde. Die Wirkung kann durch das getestet werden, was manchmal alsR2 ändern oder F ändern. Dieser Ansatz verwendet SS vom Typ 1. Alternativ können Sie dies zweimal mit jeder ersten Eingabe tun und den F-Änderungstest für beide Prädiktoren melden. Auf diese Weise erhält keine Variable die SS aufgrund der Überlappung. Dieser Ansatz verwendet Typ 3 SS. (Ich sollte Ihnen auch sagen, dass der letztgenannte Ansatz wenig beachtet wird.)
Nach dem Vorschlag von @BrettMagill im Kommentar unten kann ich versuchen, dies etwas klarer zu machen. (Beachten Sie, dass ich in meinem Beispiel nur 2 Prädiktoren und keine Interaktion verwende, aber diese Idee kann so skaliert werden, dass sie alles beinhaltet, was Sie möchten.)
Typ 1: SS (A) und SS (B | A)
Typ 3: SS (A | B) und SS (B | A)
quelle
Die Ergebnisse der Ausgabe von aov geben Ihnen Wahrscheinlichkeiten basierend auf der Quadratsumme vom Typ 1. Aus diesem Grund ist das Interaktionsergebnis dasselbe und die Haupteffekte unterscheiden sich.
Wenn Sie Wahrscheinlichkeiten verwenden, die auf der Summe der Quadrate vom Typ 3 basieren, stimmen diese mit den Ergebnissen der linearen Regression überein.
quelle
Anova(..., type=3)
wird nicht Sie richtigen Typ III SS geben, es sei denn , Sie auch von der Behandlung Kontrasten (Standard in R) Effekt - Schalter Codierung für ungeordnete Faktoren (options(contrasts=c("contr.sum", "contr.poly"))
) oder eine andere Summe auf Null Kontrast Codes (zB Helmert). Dies wird deutlich, wenn Sie unausgeglichene Zellengrößen und mehr als zwei Gruppen haben. Dies wird auch auf der Hilfeseite für erwähntAnova()
.Der Hauptunterschied zwischen der linearen Regression und der ANOVA besteht darin, dass die Prädiktorvariablen in der ANOVA diskret sind (dh, sie haben unterschiedliche Ebenen). Während bei der linearen Regression die Prädiktorvariablen kontinuierlich sind.
quelle