Gemeinsames Modell mit Interaktionstermen vs. getrennten Regressionen für einen Gruppenvergleich

13

Nachdem ich wertvolle Rückmeldungen aus früheren Fragen und Diskussionen gesammelt habe, habe ich folgende Frage gestellt: Angenommen, das Ziel besteht darin, Effektunterschiede zwischen zwei Gruppen zu erkennen, beispielsweise zwischen Männern und Frauen. Es gibt zwei Möglichkeiten, dies zu tun:

  1. Führen Sie zwei separate Regressionen für die beiden Gruppen durch und verwenden Sie den Wald-Test, um die Nullhypothese abzulehnen (oder nicht) : b 1 - b 2 = 0 , wobei b 1 der Koeffizient einer IV in der männlichen Regression ist und b 2 ist der Koeffizient der gleichen IV in der weiblichen Regression.H.0b1- -b2=0b1b2

  2. Bündeln Sie die beiden Gruppen und führen Sie ein gemeinsames Modell durch, indem Sie einen Gender-Dummy und einen Interaktionsbegriff (IV * genderdummy) einfügen. Die Erkennung des Gruppeneffekts basiert dann auf dem Zeichen der Wechselwirkung und dem t-Test auf Signifikanz.

Was ist, wenn Ho in Fall (1) abgelehnt wird, dh der Gruppenunterschied ist signifikant, aber der Interaktionskoeffiziententerm in Fall (2) ist statistisch nicht signifikant, dh der Gruppenunterschied ist nicht signifikant. Oder umgekehrt, Ho wird in Fall (1) nicht abgelehnt, und der Interaktionsterm ist in Fall (2) signifikant. Ich bin mehrmals zu diesem Ergebnis gekommen und habe mich gefragt, welches Ergebnis zuverlässiger ist und was der Grund für diesen Widerspruch ist.

Danke vielmals!

Bill718
quelle
1
Der Unterschied zwischen den Verfahren besteht darin, dass für beide Gruppen die gleiche Varianz angenommen wird. Die separate Analyse geht von unterschiedlichen Abweichungen aus.
Wahrscheinlichkeitslogik
Vielen Dank! Ist Ihnen bitte eine Referenz bekannt, die das Problem der Abweichungen beim Vergleich verschiedener Modelle behandelt?
Bill718

Antworten:

7

Das erste Modell interagiert das Geschlecht vollständig mit allen anderen Kovariaten im Modell. Im Wesentlichen die Wirkung jeder Kovariate (b2, b3 ... bn). Im zweiten Modell wird die Auswirkung des Geschlechts nur mit Ihrer IV interagiert. Angenommen, Sie haben mehr Kovariaten als nur die IV und das Geschlecht, kann dies zu etwas anderen Ergebnissen führen.

Wenn Sie nur die beiden Kovariaten haben, gibt es dokumentierte Fälle, in denen der Unterschied in der Maximierung zwischen dem Wald-Test und dem Likelihood-Ratio-Test zu unterschiedlichen Antworten führt (siehe mehr auf Wikipedia ).

Nach meiner eigenen Erfahrung versuche ich, mich von der Theorie leiten zu lassen. Wenn es eine dominante Theorie gibt, die besagt, dass das Geschlecht nur mit der IV, nicht aber mit den anderen Kovariaten interagiert, würde ich mich für die partielle Interaktion entscheiden.

mCorey
quelle
Vielen Dank! Ja, tatsächlich gibt es verschiedene Kovariaten, nicht nur eine IV, ich habe der Einfachheit halber nur eine IV in der Frage erwähnt. Die Sache ist, dass es keine starke Theorie gibt, die die Interaktion zwischen Geschlecht und bestimmten Kovariaten unterstützen könnte. Es handelt sich um eine explorative Analyse, daher muss ich mit vielen Interaktionen und Modellanpassungen experimentieren. Das ursprüngliche Modell enthält 30 Prädiktoren ...
Bill718
@ Bill718 Auch die einzelnen Modelle haben einen anderen Abschnitt, während das einzelne Modell dies nicht tut, es sei denn, Sie geben das Geschlecht allein als zusätzliche IV an (nicht nur als Interaktion).
Robert Kubrick
5

Jedes Mal, wenn zwei verschiedene Verfahren zum Testen einer bestimmten Hypothese verwendet werden, ergeben sich unterschiedliche p-Werte. Zu sagen, dass eines von Bedeutung ist und das andere nicht, kann nur eine Schwarz-Weiß-Entscheidung auf der Ebene von 0,05 treffen. Wenn ein Test einen p-Wert von 0,03 ergibt und der andere 0,07, würde ich die Ergebnisse nicht als widersprüchlich bezeichnen. Wenn Sie so streng über die Bedeutung nachdenken, ist es leicht, dass entweder die Situation (i) oder (ii) auftritt, wenn die Bedeutung der Boardline der Fall ist.

Wie ich als Antwort auf die vorherige Frage erwähnt habe, ist es meine Präferenz, nach einer Interaktion zu suchen, eine kombinierte Regression durchzuführen.

Michael R. Chernick
quelle
Ja, es ist wahr, dass die kombinierte Regression zumindest in meinem Fall besser zu funktionieren scheint, und es ist eine sehr flexible Methode, da jemand mit verschiedenen Interaktionen und Modellanpassungen versuchen könnte. Ich wollte nur, durch "statistische" Neugier, sagen wir mal , um herauszufinden, was der Grund für die irgendwie unterschiedlichen Ergebnisse ist. In Bezug auf p-Werte habe ich gehört, dass einige Leute Signifikanz nur bei einem Wert von = 0,5% oder weniger akzeptieren. Ich bin flexibler und verwende ein Niveau von = 1%, aber die großen Kopfschmerzen treten auf, wenn die p-Werte völlig unterschiedlich sind.
Bill718
Ich habe zum Beispiel Studien gesehen, in denen eine IV sehr wichtig ist, wenn ein geordnetes Logit-Modet verwendet wird, während dieselbe IV unbedeutend wird, wenn ein OLS angewendet wird. In diesem Fall kann die Erklärung der Ergebnisse etwas schwierig sein. Vielen Dank für Ihre Kommentare und Ihr Feedback!
Bill718
0,070,03
2

Im zweiten Fall schlägt die Standardsoftware einen t-stat mit t-student p-Werten vor, während im ersten Fall die Wald-Tests zwei Optionen haben können. Unter der Annahme der Fehlernormalität folgt die Wald-Statistik einer exakten Fisher-Statistik (die der t-Statistik entspricht, da sie die Normalität des Fehlers annimmt). Während bei asymptotischer Normalität die Wald-Statistik einer Chi2-Verteilung folgt (die analog zur a t-Statistik nach einer Normalverteilung asimptotisch ist). Welche Verteilung nehmen Sie an? Abhängig davon können Ihre p-Werte zu unterschiedlichen Ergebnissen führen.

In Lehrbüchern finden Sie, dass für bilaterale Einzeltests (ein Parameter) sowohl die T-Student- als auch die Fisher-Statistik gleichwertig sind.

Wenn Ihre Stichprobe nicht groß ist, würde ein Vergleich der Chi2- und T-Stat-Werte mit Sicherheit zu unterschiedlichen Ergebnissen führen. In diesem Fall wäre die Annahme einer asymptotischen Verteilung nicht sinnvoll. Wenn Ihre Stichprobe eher klein ist und die Normalität vernünftiger erscheint, impliziert dies t-stat- und Fisher-p-Werte für Fall 2 bzw. 1.

JDav
quelle
In der Tat habe ich zwei Proben ungleicher Größe, die erste hat 3000 Beobachtungen, die zweite ist relativ klein, 500 Beobachtungen. Und die Software meldet Chi-Quadrat bei der Berechnung von Wald-Statistiken. Es scheint also, dass dies der Grund für die Diskrepanz ist. Beide Proben sind jedoch normalerweise verteilt, insbesondere bei der großen Probe. Danke vielmals!
Bill718
1
Es tut mir leid, Sie zu täuschen, aber ungleiche Teilstichprobengrößen sind kein Problem. Außerdem sieht deine für mich wie eine große Probe aus. Daher sollten beide Verfahren ähnliche Ergebnisse liefern. Mir ist aufgefallen, dass @probabilityislogic einen guten Punkt gemacht hat. Die Verwendung einer gepoolten Probe impliziert gleiche Restvarianzen, so dass dies eine Quelle für Heterogenität sein kann. Sie wissen nicht, wie Sie das separate Regressionsverfahren implementieren, aber es ist leicht, Fehler zu machen, wenn Sie den Status selbst berechnen. Dies macht die gepoolte Regression zu einem sicheren und unkomplizierten Ansatz.
JDav
1
Um das Problem der ungleichen Varianzen zwischen Gruppen zu lösen (Heterosckedastizität), versuchen Sie es mit einem Varianzschätzer für Weiß (auch bekannt als Newey-West, Sandwich oder Robust, wenn Sie Stata verwenden). Dieser Ansatz korrigiert unbekannte Arten von Heteroskedaskität.
JDav
Oh, ok, ich verstehe, tatsächlich stammen die Beobachtungen in der Stichprobe aus verschiedenen Regionen eines Landes, also ist es sehr wahrscheinlich, dass es Heterogenitätsprobleme gibt!
Bill718