Was ist, wenn die Interaktion meine direkten Auswirkungen auf die Regression zunichte macht?

25

In einer Regression löscht der Interaktionsterm beide verwandten direkten Effekte aus. Beende ich die Interaktion oder melde ich das Ergebnis? Die Wechselwirkung war nicht Teil der ursprünglichen Hypothese.

Jen
quelle
6
Sie könnten wahrscheinlich eine bessere Antwort erhalten, wenn Sie mehr Details zu Ihrem experimentellen Design, Ihrer Forschungsfrage und Ihrem statistischen Modell angeben.
David LeBauer
Ich habe Umfragedaten, v1 und v2 sagen das Ergebnis wie erwartet voraus. Die Wechselwirkung zwischen v1 (dichotom) und v2 (5 Gruppen) ist jedoch nicht signifikant - und (meine Frage) macht meine direkten Effekte von v1 und v2 ebenfalls nicht signifikant. Ich kann kein Beispiel dafür in der Literatur finden.
Jen
Wenn die v1: v2-Interaktion nicht von Bedeutung ist, müssen Sie sie in das Modell aufnehmen?
Christopher Aden
Vielleicht ist diese Frage relevant? stats.stackexchange.com/questions/5184/…
Glen
Eine andere Möglichkeit ist eine paradoxe Verwechslung: Beispiel 1: epm.sagepub.com/content/56/3/430.abstract Beispiel 2: optimalprediction.com/files/pdf/V1A19.pdf
user31256

Antworten:

24

Ich denke, das ist schwierig; Wie Sie andeuten, gibt es hier ein „Moral Hazard“: Wenn Sie sich die Interaktion überhaupt nicht angesehen hätten, wären Sie frei und klar, aber jetzt, wo Sie es haben, besteht der Verdacht, dass Sie Daten ausgraben, wenn Sie sie fallen lassen.

Der Schlüssel ist wahrscheinlich eine Änderung in der Bedeutung Ihrer Effekte, wenn Sie von den Haupteffekten zum Interaktionsmodell wechseln. Was Sie für die "Haupteffekte" erhalten, hängt stark davon ab, wie Ihre Behandlungen und Kontraste codiert sind. In R ist die Standardeinstellung, dass die Behandlung den ersten Faktorstufen (denjenigen mit den Vornamen in alphabetischer Reihenfolge, sofern Sie sich nicht die Mühe gemacht haben, sie anders zu codieren) als Basisstufen gegenübersteht.

Sagen Sie (der Einfachheit halber), dass Sie für jeden Faktor zwei Ebenen haben, 'control' und 'trt'. Ohne die Interaktion lautet die Bedeutung des Parameters 'v1.trt' (unter der Annahme, dass die Behandlung wie in R voreingestellt ist) "durchschnittliche Differenz zwischen 'v1.control' und 'v1.trt' Gruppe"; Die Bedeutung des Parameters 'v2.trt' ist "durchschnittliche Differenz zwischen 'v2.control' und 'v2.trt'".

Bei der Interaktion ist 'v1.trt' die durchschnittliche Differenz zwischen 'v1.control' und 'v1.trt' in der 'v2.control'-Gruppe , und ähnlich ist' v2.trt 'die durchschnittliche Differenz zwischen v2-Gruppen in der Gruppe 'v1.control'. Wenn Sie also in jeder Kontrollgruppe relativ geringe Behandlungseffekte, in den Behandlungsgruppen jedoch große Auswirkungen haben, können Sie leicht sehen, was Sie sehen.

Der einzige Weg, wie ich dies ohne signifikanten Interaktionsterm sehen kann, ist, wenn alle Effekte ziemlich schwach sind (was Sie also wirklich mit "der Effekt ist verschwunden" meinen, ist, dass Sie von p = 0,06 auf p = 0,04 gewechselt sind, über die magische Signifikanzlinie).

Eine andere Möglichkeit ist, dass Sie "zu viele Freiheitsgrade verbrauchen" - das heißt, die Parameterschätzungen ändern sich tatsächlich nicht so stark, aber der Restfehlerterm wird ausreichend aufgeblasen, indem Sie weitere 4 schätzen müssen [= (2- 1) * (5-1)] Parameter, mit denen Ihre wichtigen Begriffe unwichtig werden. Auch dies würde ich nur mit einem kleinen Datensatz / relativ schwachen Effekten erwarten.

Eine mögliche Lösung besteht darin, zu Summenkontrasten überzugehen, obwohl dies auch heikel ist - Sie müssen davon überzeugt sein, dass der „durchschnittliche Effekt“ in Ihrem Fall von Bedeutung ist. Am besten zeichnen Sie Ihre Daten auf und schauen sich die Koeffizienten an und verstehen, was mit den geschätzten Parametern passiert.

Hoffentlich hilft das.

Ben Bolker
quelle
4
Es gibt kein moralisches Risiko. Die Berechnung der Haupteffekte mit der enthaltenen Interaktion unterscheidet sich erheblich von der Berechnung ohne diese. Sie müssen das additive Modell ausführen, um die Haupteffekte zu melden, und dann die Interaktion ohnehin in einem separaten Modell einschließen. Sie ignorieren die Haupteffekte in dem Modell, das die Interaktion enthält, da es sich nicht wirklich um Haupteffekte handelt, sondern um Effekte auf bestimmten Ebenen der anderen Prädiktoren (einschließlich der Interaktion).
John
John: Würde man nach dieser Logik den Interaktionsterm in einem Modell, das einen quadratischen Interaktion / Moderationseffekt bewertet, auch ignorieren (dh (1) Haupteffekte, (2) Interaktion zwischen diesen Haupteffekten und (3) einen quadratischen Term einschließen? für einen der Haupteffekte und einen krummlinigen Interaktionseffekt (Moderation))?
Bento
11

Sind Sie sicher, dass die Variablen richtig ausgedrückt wurden? Betrachten Sie zwei unabhängige Variablen und X 2 . Die problem-Anweisung besagt, dass Sie eine gute Anpassung an das Formular erhaltenX1X2

Y=β0+β12X1X2+ϵ

Y

Y=β0+(β12X1X2)δ

Dies kann umgeschrieben werden

log(Yβ0)=log(β12)+log(X1)+log(X2)+log(δ);

Das heißt, wenn Sie Ihre Variablen im Formular erneut ausdrücken

η=log(Yβ0)ξ1=log(X1)ξ2=log(X2)ζ=log(δ)N(0,σ2)

dann ist das Modell linear und hat wahrscheinlich homoskedastische Residuen:

η=γ0+γ1ξ1+γ2ξ2+ζ,

γ1γ2

β0Y

β0β0

Y=(θ1+X1)(θ2+X2)+ϵ

θ1θ2=β0θ1θ2θ1X2θ2X1ϵ

Diese Analyse zeigt, wie es möglich ist - sogar in einigen Anwendungen wahrscheinlich -, ein Modell zu haben, bei dem die einzigen Auswirkungen Wechselwirkungen zu sein scheinen. Dies tritt auf, wenn die Variablen (unabhängig, abhängig oder beides) in ungeeigneter Form angezeigt werden und ihre Logarithmen ein effektiveres Ziel für die Modellierung darstellen. Die Verteilungen der Variablen und der anfänglichen Residuen liefern die erforderlichen Hinweise, um festzustellen, ob dies der Fall ist: Verzerrte Verteilungen der Variablen und Heteroskedastizität der Residuen (insbesondere mit Abweichungen, die in etwa proportional zu den vorhergesagten Werten sind) sind die Indikatoren.

whuber
quelle
Hmmm. Dies alles scheint plausibel, aber komplexer als meine Lösung (die Kommentare zur ursprünglichen Frage legen nahe, dass die Prädiktoren beide kategorisch sind). Aber wie immer lautet die Antwort "Schau dir die Daten an" (oder die Residuen).
Ben Bolker
1
@Ben Ich stimme zu, aber ich verstehe nicht, woher die Wahrnehmung von "komplexer" kommt, da die Analyse von univariaten Verteilungen und die Post-hoc-Analyse von Residuen in jeder Regressionsübung unerlässlich sind. Die einzige zusätzliche Arbeit, die hier erforderlich ist, besteht darin, darüber nachzudenken, was diese Analysen bedeuten.
whuber
1
Vielleicht meine ich mit "komplexer" nur "Nach meiner Erfahrung habe ich gesehen, dass die Probleme, auf die ich in meiner Antwort hingewiesen habe (Kontrastkodierung), häufiger auftreten als die, auf die Sie hingewiesen haben (Nichtadditivität)" - aber das ist wirklich ein Problem Aussage über die Art der Daten / Personen, mit denen ich arbeite, anstatt über die Welt.
Ben Bolker
5

Y=β0+β1X1+β2X2+β3(X1X2)=(b0+b2X2)+(b1+b3X2)X1

Dies führt typischerweise zu einer hohen Multikollinearität, da das Produkt stark mit beiden ursprünglichen Variablen korreliert. Bei Multikollinearität hängen einzelne Parameterschätzungen stark davon ab, welche anderen Variablen berücksichtigt werden - wie in Ihrem Fall. Als Gegenmaßnahme verringert die Zentrierung der Variablen häufig die Multikollinearität, wenn die Wechselwirkung berücksichtigt wird.

Ich bin mir nicht sicher, ob dies direkt auf Ihren Fall zutrifft, da Sie anscheinend kategoriale Prädiktoren haben, aber statt "ANOVA" den Begriff "Regression" verwenden. Natürlich ist der letztere Fall im Wesentlichen das gleiche Modell, jedoch nur nach Auswahl des Kontrastcodierungsschemas, wie es Ben erläutert hat.

caracal
quelle
5

Dies kann ein Interpretationsproblem sein, ein Missverständnis dessen, was ein sogenannter "direkter Effekt" -Koeffizient wirklich ist.

In Regressionsmodellen mit kontinuierlichen Prädiktorvariablen und keinen Interaktionstermen, dh ohne Terme, die als Produkt anderer Terme konstruiert wurden, ist der Koeffizient jeder Variablen die Steigung der Regressionsfläche in Richtung dieser Variablen. Sie ist unabhängig von den Werten der Variablen konstant und ist offensichtlich ein Maß für die Auswirkung dieser Variablen.

Bei den Modellen mit Wechselwirkungen - , die mit Begriffen ist, die als die Produkte anderer Begriffe aufgebaut sind - diese Auslegung kann nur für Variablen ohne weitere Qualifizierung gemacht werden, sind nicht in irgendwelchen Wechselwirkungen beteiligt. Der Koeffizient einer Variablen, die an Wechselwirkungen beteiligt ist, ist die Steigung der Regressionsfläche in Richtung dieser Variablen, wenn die Werte aller Variablen, die mit der betreffenden Variablen interagieren, Null sind , und der Signifikanztest des Koeffizienten sich auf das bezieht Steigung der Regressionsfläche nur in dem Bereich des Prädiktorraums. Da es nicht erforderlich ist, dass tatsächlich Daten in diesem Bereich des Raums vorliegen, kann der scheinbare direkte Effektkoeffizient wenig Ähnlichkeit mit der Neigung der Regressionsfläche im Bereich des Prädiktorraums aufweisen, in dem Daten tatsächlich beobachtet wurden. In solchen Fällen gibt es keine echte "direkte Wirkung". Der beste Ersatz ist wahrscheinlich der "Durchschnittseffekt": die Steigung der Regressionsfläche in Richtung der betreffenden Variablen, die an jedem Datenpunkt gemessen und über alle Datenpunkte gemittelt wird. Weitere Informationen hierzu finden Sie unter Warum kann das Zentrieren unabhängiger Variablen die Haupteffekte durch Moderation ändern?

Ray Koopman
quelle