Wie kann getestet werden, ob ein Regressionskoeffizient durch eine Gruppierungsvariable moderiert wird?

9

Ich habe eine Regression für zwei Gruppen der Stichprobe durchgeführt, basierend auf einer moderierenden Variablen (z. B. Geschlecht). Ich mache einen einfachen Test für den Moderationseffekt, indem ich überprüfe, ob die Signifikanz der Regression bei einem Satz verloren geht, während sie bei dem anderen bleibt.

Q1: Die obige Methode ist gültig, nicht wahr?

F2: Das Vertrauensniveau meiner Forschung liegt bei 95%. Für eine Gruppe ist die Regression bei 0,000 signifikant. Zum anderen ist es bei 0,038 signifikant. Ich glaube, ich muss beide Regressionen als signifikant akzeptieren und es gibt keinen moderierenden Effekt. Wenn ich die Regression akzeptiere, ist dies signifikant, während sich herausstellt, dass sie nicht bei 0,01 liegt. Verursache ich einen Fehler vom Typ I (Akzeptiere das falsche Argument)?

Skorpion
quelle

Antworten:

12

Ihre Methode scheint die Frage nicht zu beantworten, vorausgesetzt, ein "Moderationseffekt" ist eine Änderung eines oder mehrerer Regressionskoeffizienten zwischen den beiden Gruppen. Signifikanztests in der Regression bewerten, ob die Koeffizienten ungleich Null sind. Der Vergleich von p-Werten in zwei Regressionen sagt wenig (wenn überhaupt) über Unterschiede in diesen Koeffizienten zwischen den beiden Stichproben aus.

Führen Sie stattdessen das Geschlecht als Dummy-Variable ein und interagieren Sie es mit allen interessierenden Koeffizienten. Testen Sie dann die Signifikanz der zugehörigen Koeffizienten.

Im einfachsten Fall (einer unabhängigen Variablen) können Ihre Daten beispielsweise als Liste von Tupeln ausgedrückt werden , wobei g i die Geschlechter sind, die als 0 und 1 codiert sind . Das Modell für Geschlecht 0 ist(xi,yi,gi)gi010

yi=α0+β0xi+εi

(wobei die Daten indiziert, für die g i = 0 ist ) und das Modell für Geschlecht 1 istigi=01

yi=α1+β1xi+εi

(wobei die Daten indiziert, für die g i = 1 ist ). Die Parameter sind α 0 , α 1 , β 0 und β 1 . Die Fehler sind die ε i . Nehmen wir an, sie sind unabhängig und mit Nullmitteln identisch verteilt. Ein kombiniertes Modell zum Testen auf einen Unterschied in den Steigungen (die βs ) kann wie folgt geschrieben werdenigi=1α0α1β0β1εiβ

yi=α+β0xi+(β1β0)(xigi)+εi

igi=0α=α0gi=1xiβ1α=α1

yi=α+βxi+γ(xigi)+εi

γ^

yi=α+δgi+βxi+γ(xigi)+εi.

δ^

εi

whuber
quelle
Danke, ich kann verstehen, wie das funktioniert. Funktioniert diese Methode, wenn ich mehrere Moderationsvariablen habe? Sagen Sie zum Beispiel Region (ländlich / städtisch), Bildungsniveau (Gymnasium / nicht)? Kann ich zusätzliche Dummy-Variablen hinzufügen und den Effekt testen?
Skorpion
1
@whuber, ich stoße gelegentlich auf funktional ähnliche Situationen, in denen der Analytiker die Stichprobe einfach in zwei Gruppen aufteilt, für beide Gruppen denselben Satz unabhängiger Variablen verwendet und die Koeffizienten nur qualitativ vergleicht. Gibt es irgendwelche Vorteile dieser Situation, die ich gerade beschrieben habe, gegenüber dieser Formulierung der Verwendung von Interaktionseffekten?
Andy W
3
@Andy Ohne die Absicht, kritisch oder abwertend zu klingen, kann ich mir für die qualitative Methode nur vorstellen, dass sie keine Anforderungen an das Verständnis oder die Kompetenz des Analytikers stellt: Dies macht sie für mehr Menschen zugänglich. Der qualitative Ansatz ist mit Schwierigkeiten behaftet. Beispielsweise kann es allein durch Zufall große offensichtliche Unterschiede zwischen den Steigungen und den Abschnitten geben. Eine qualitative Bewertung nur der Koeffizienten kann diese Situation nicht von den tatsächlichen Auswirkungen unterscheiden.
whuber
1
@whuber, mein erster Gedanke war der gleiche, und ich habe kürzlich den gleichen Vorschlag einem Kollegen gegeben, der den Vorschlag der Einfachheit halber ignoriert hat (wie Sie angedeutet haben). Ich dachte, vielleicht könnte der Kommentar über die Annahme, dass die Fehlervarianzen für beide Geschlechter gleich sind, den Ansatz mit zwei Modellen angemessener machen, da die Annahme verletzt wird.
Andy W
1
@Andy Ja, aber die Möglichkeit unterschiedlicher Abweichungen erhöht den Wert eines nicht qualitativen Vergleichs nicht. Vielmehr würde ein differenzierterer quantitativer Vergleich der Parameterschätzungen erforderlich sein. Zum Beispiel könnte man als grobe (aber informative) Näherung eine Variante eines CABF- oder Satterthwaite-t-Tests durchführen, die auf den geschätzten Fehlervarianzen und ihren Freiheitsgraden basiert. Selbst eine visuelle Untersuchung eines gut konstruierten Streudiagramms wäre einfach und weitaus informativer als ein einfacher Vergleich der Regressionskoeffizienten.
whuber
-1

Ich denke, das Moderieren einer Gruppierungsvariablen würde beim Vergleich von Regressionskoeffizienten über unabhängige Wellen von Querschnittsdaten (z. B. Jahr1, Jahr2 und Jahr3 als Gruppe1, Gruppe2 und Gruppe3) gleich gut funktionieren.

Blutnuss
quelle