In einer Regression löscht der Interaktionsterm beide verwandten direkten Effekte aus. Beende ich die Interaktion oder melde ich das Ergebnis? Die Wechselwirkung war nicht Teil der ursprünglichen Hypothese.
25
In einer Regression löscht der Interaktionsterm beide verwandten direkten Effekte aus. Beende ich die Interaktion oder melde ich das Ergebnis? Die Wechselwirkung war nicht Teil der ursprünglichen Hypothese.
Antworten:
Ich denke, das ist schwierig; Wie Sie andeuten, gibt es hier ein „Moral Hazard“: Wenn Sie sich die Interaktion überhaupt nicht angesehen hätten, wären Sie frei und klar, aber jetzt, wo Sie es haben, besteht der Verdacht, dass Sie Daten ausgraben, wenn Sie sie fallen lassen.
Der Schlüssel ist wahrscheinlich eine Änderung in der Bedeutung Ihrer Effekte, wenn Sie von den Haupteffekten zum Interaktionsmodell wechseln. Was Sie für die "Haupteffekte" erhalten, hängt stark davon ab, wie Ihre Behandlungen und Kontraste codiert sind. In R ist die Standardeinstellung, dass die Behandlung den ersten Faktorstufen (denjenigen mit den Vornamen in alphabetischer Reihenfolge, sofern Sie sich nicht die Mühe gemacht haben, sie anders zu codieren) als Basisstufen gegenübersteht.
Sagen Sie (der Einfachheit halber), dass Sie für jeden Faktor zwei Ebenen haben, 'control' und 'trt'. Ohne die Interaktion lautet die Bedeutung des Parameters 'v1.trt' (unter der Annahme, dass die Behandlung wie in R voreingestellt ist) "durchschnittliche Differenz zwischen 'v1.control' und 'v1.trt' Gruppe"; Die Bedeutung des Parameters 'v2.trt' ist "durchschnittliche Differenz zwischen 'v2.control' und 'v2.trt'".
Bei der Interaktion ist 'v1.trt' die durchschnittliche Differenz zwischen 'v1.control' und 'v1.trt' in der 'v2.control'-Gruppe , und ähnlich ist' v2.trt 'die durchschnittliche Differenz zwischen v2-Gruppen in der Gruppe 'v1.control'. Wenn Sie also in jeder Kontrollgruppe relativ geringe Behandlungseffekte, in den Behandlungsgruppen jedoch große Auswirkungen haben, können Sie leicht sehen, was Sie sehen.
Der einzige Weg, wie ich dies ohne signifikanten Interaktionsterm sehen kann, ist, wenn alle Effekte ziemlich schwach sind (was Sie also wirklich mit "der Effekt ist verschwunden" meinen, ist, dass Sie von p = 0,06 auf p = 0,04 gewechselt sind, über die magische Signifikanzlinie).
Eine andere Möglichkeit ist, dass Sie "zu viele Freiheitsgrade verbrauchen" - das heißt, die Parameterschätzungen ändern sich tatsächlich nicht so stark, aber der Restfehlerterm wird ausreichend aufgeblasen, indem Sie weitere 4 schätzen müssen [= (2- 1) * (5-1)] Parameter, mit denen Ihre wichtigen Begriffe unwichtig werden. Auch dies würde ich nur mit einem kleinen Datensatz / relativ schwachen Effekten erwarten.
Eine mögliche Lösung besteht darin, zu Summenkontrasten überzugehen, obwohl dies auch heikel ist - Sie müssen davon überzeugt sein, dass der „durchschnittliche Effekt“ in Ihrem Fall von Bedeutung ist. Am besten zeichnen Sie Ihre Daten auf und schauen sich die Koeffizienten an und verstehen, was mit den geschätzten Parametern passiert.
Hoffentlich hilft das.
quelle
Sind Sie sicher, dass die Variablen richtig ausgedrückt wurden? Betrachten Sie zwei unabhängige Variablen und X 2 . Die problem-Anweisung besagt, dass Sie eine gute Anpassung an das Formular erhaltenX1 X2
Dies kann umgeschrieben werden
Das heißt, wenn Sie Ihre Variablen im Formular erneut ausdrücken
dann ist das Modell linear und hat wahrscheinlich homoskedastische Residuen:
Diese Analyse zeigt, wie es möglich ist - sogar in einigen Anwendungen wahrscheinlich -, ein Modell zu haben, bei dem die einzigen Auswirkungen Wechselwirkungen zu sein scheinen. Dies tritt auf, wenn die Variablen (unabhängig, abhängig oder beides) in ungeeigneter Form angezeigt werden und ihre Logarithmen ein effektiveres Ziel für die Modellierung darstellen. Die Verteilungen der Variablen und der anfänglichen Residuen liefern die erforderlichen Hinweise, um festzustellen, ob dies der Fall ist: Verzerrte Verteilungen der Variablen und Heteroskedastizität der Residuen (insbesondere mit Abweichungen, die in etwa proportional zu den vorhergesagten Werten sind) sind die Indikatoren.
quelle
Dies führt typischerweise zu einer hohen Multikollinearität, da das Produkt stark mit beiden ursprünglichen Variablen korreliert. Bei Multikollinearität hängen einzelne Parameterschätzungen stark davon ab, welche anderen Variablen berücksichtigt werden - wie in Ihrem Fall. Als Gegenmaßnahme verringert die Zentrierung der Variablen häufig die Multikollinearität, wenn die Wechselwirkung berücksichtigt wird.
Ich bin mir nicht sicher, ob dies direkt auf Ihren Fall zutrifft, da Sie anscheinend kategoriale Prädiktoren haben, aber statt "ANOVA" den Begriff "Regression" verwenden. Natürlich ist der letztere Fall im Wesentlichen das gleiche Modell, jedoch nur nach Auswahl des Kontrastcodierungsschemas, wie es Ben erläutert hat.
quelle
Dies kann ein Interpretationsproblem sein, ein Missverständnis dessen, was ein sogenannter "direkter Effekt" -Koeffizient wirklich ist.
In Regressionsmodellen mit kontinuierlichen Prädiktorvariablen und keinen Interaktionstermen, dh ohne Terme, die als Produkt anderer Terme konstruiert wurden, ist der Koeffizient jeder Variablen die Steigung der Regressionsfläche in Richtung dieser Variablen. Sie ist unabhängig von den Werten der Variablen konstant und ist offensichtlich ein Maß für die Auswirkung dieser Variablen.
Bei den Modellen mit Wechselwirkungen - , die mit Begriffen ist, die als die Produkte anderer Begriffe aufgebaut sind - diese Auslegung kann nur für Variablen ohne weitere Qualifizierung gemacht werden, sind nicht in irgendwelchen Wechselwirkungen beteiligt. Der Koeffizient einer Variablen, die an Wechselwirkungen beteiligt ist, ist die Steigung der Regressionsfläche in Richtung dieser Variablen, wenn die Werte aller Variablen, die mit der betreffenden Variablen interagieren, Null sind , und der Signifikanztest des Koeffizienten sich auf das bezieht Steigung der Regressionsfläche nur in dem Bereich des Prädiktorraums. Da es nicht erforderlich ist, dass tatsächlich Daten in diesem Bereich des Raums vorliegen, kann der scheinbare direkte Effektkoeffizient wenig Ähnlichkeit mit der Neigung der Regressionsfläche im Bereich des Prädiktorraums aufweisen, in dem Daten tatsächlich beobachtet wurden. In solchen Fällen gibt es keine echte "direkte Wirkung". Der beste Ersatz ist wahrscheinlich der "Durchschnittseffekt": die Steigung der Regressionsfläche in Richtung der betreffenden Variablen, die an jedem Datenpunkt gemessen und über alle Datenpunkte gemittelt wird. Weitere Informationen hierzu finden Sie unter Warum kann das Zentrieren unabhängiger Variablen die Haupteffekte durch Moderation ändern?
quelle