Signifikanz- und Glaubwürdigkeitsintervalle für den Interaktionsbegriff in der logistischen Regression

8

Ich habe eine Bayes'sche logistische Regression in WinBugs eingebaut und sie hat einen Interaktionsbegriff. Etwa so:

P.rÖb(yich=1)=lÖGicht- -1(ein+b1xich+b2wich+b3xichwich)

Dabei ist eine standardisierte kontinuierliche Variable und eine Dummy-Variable. In Wirklichkeit ist das Modell komplizierter, aber ich möchte die Dinge einfach halten.wxw

Es kommt vor, dass der Interaktionsterm "signifikant" ist, aber nicht die einzelnen Prädiktoren. Zum Beispiel,

mean(b1)=.2 und Quantil: und( - 1,3 , 7 )95(1.3.7)

mean(b2)=.4 und Quantil: und( - 1,3 0,5 )95(1.3.5)

mean(b3)=1.4 und Quantil: und( .4 2.5 )95(.42.5)

Habt ihr einen Rat, wie ihr auf diesen Befund reagieren sollt? Ich dachte, ich könnte 95% Glaubwürdigkeitsintervalle für den gesamten Effekt von berechnen, wenn . Dies wäre: 95% Quantil für den von x, abhängig von : undw = 1 w = 1 ( - 1,3 + 0,4 0,7 + 2,5 ) = ( - 0,9 + 3,2 )xw=1w=1(1.3+.4.7+2.5)=(.9+3.2)

Ist das richtig? Wenn nicht, was soll ich tun? Irgendwelche Referenzen zu diesem Thema?

Manoel Galdino
quelle

Antworten:

5

Nein, Ihre Berechnung ist nicht korrekt, weil:

a) und sind wahrscheinlich in der posterioren Verteilung korreliert, undb 3b1b3

b) Selbst wenn dies nicht der Fall wäre, würden Sie es nicht so berechnen (denken Sie an das Gesetz der großen Zahlen).

Aber keine Angst, es gibt eine wirklich einfache Möglichkeit, dies in WinBUGS zu tun. Definieren Sie einfach eine neue Variable:

b1b3 <- b1 + b3

und überwachen Sie seine Werte.

BEARBEITEN:

Nehmen wir zur besseren Erklärung meines ersten Punktes an, dass der hintere Teil eine gemeinsame multivariate Normalverteilung aufweist (dies ist in diesem Fall nicht der Fall, dient jedoch als nützliche Illustration). Dann hat der Parameter die Verteilung , und daher ist das zu 95% glaubwürdige Intervall - beachten Sie, dass dies nur vom Mittelwert und abhängt Varianz. N ( μ i , σ 2 i ) ( μ i - 1,96 σ i , μ i + 1,96 σ i )bichN.(μich,σich2)(μich- -1,96σich,μich+1,96σich)

Jetzt hat die Verteilung . Beachten Sie, dass der Varianzterm (und damit das zu 95% glaubwürdige Intervall) den Korrelationsterm beinhaltet, der aus den Intervallen für oder nicht gefunden werden . N ( μ 1 + μ 3 , σ 2 1 + 2 ρ 13 σ 1 σ 3 + σ 2 3 ) ρ 13 b 1 b 3b1+b3N.(μ1+μ3,σ12+2ρ13σ1σ3+σ32)ρ13b1b3

(Mein Punkt zum Gesetz der großen Zahlen war nur, dass die Standardabweichungen der Summe von 2 unabhängigen Zufallsvariablen kleiner sind als die Summe der Standardabweichungen.)

Was die Implementierung in WinBUGS betrifft, dachte ich an Folgendes:

model {
  a ~ dXXXX
  b1 ~ dXXXX
  b2 ~ dXXXX
  b3 ~ dXXXX
  b1b3 <- b1 + b3

  for (i in 1:N) {
    logit(p[i]) <- a + b1*x[i] + b2*w[i] + b3*x[i]*w[i]
    y[i] ~ dbern(p[i])
  }
}

Bei jedem Schritt des Samplers wird der Knoten b1b3von b1und aktualisiert b3. Es braucht keinen Prior, da es nur eine deterministische Funktion von zwei anderen Knoten ist.

Simon Byrne
quelle
Ich bin nicht sicher, ob ich Ihr Commnet verstehe. Wenn b1 und b3 korreliert sind, warum ist das wichtig? Ich meine, ihre gemeinsame Verteilung muss mit einem Korrelationsparameter charakterisiert werden, aber was nun? Ich habe ihre Randverteilungen. 2. Ich habe nicht verstanden, dass Sie das Gesetz der großen Zahlen erwähnt haben. Könnten Sie es erweitern? Schlagen Sie schließlich vor, dass ich b1 + b3 in die Hauptschleife einfügen soll? Und ich muss vor diesem neuen Parameter nur eine vage verwenden? Vielen Dank!
Manoel Galdino
1

Ein paar Gedanken: 1) Ich bin mir nicht sicher, ob die Tatsache, dass dies Bayesianisch ist, von Bedeutung ist. 2) Ich denke, Ihr Ansatz ist richtig. 3) Interaktionen bei der logistischen Regression sind schwierig. Ich habe darüber in einem Artikel geschrieben, in dem es um SAS PROC LOGISTIC geht, aber die allgemeine Idee gilt. Das Papier ist auf meinem Blog und ist hier

Peter Flom
quelle
Ich stimme zu, dass es wahrscheinlich ist, dass Bayesian oder nicht wichtig ist. Ich sagte nur, es sei Bayesianisch, nur für den Fall, dass es darauf ankommt.
Manoel Galdino
1

Ich habe derzeit ein ähnliches Problem. Ich glaube auch, dass der Ansatz zur Berechnung des Gesamteffekts von w korrekt ist. Ich glaube das kann über getestet werden

h0: b2 + b3 * Mittelwert (x) = 0; ha: b2 + b3 * Mittelwert (x)! = 0

Ich bin jedoch auf eine Arbeit von Ai / Norton gestoßen, die behauptet, dass "die Größe des Interaktionseffekts in nichtlinearen Modellen nicht dem Randeffekt des Interaktionsterms entspricht, ein entgegengesetztes Vorzeichen haben kann und seine statistische Signifikanz nicht durch berechnet wird Standardsoftware. " (2003, S. 123)

Vielleicht sollten Sie versuchen, ihre Formeln anzuwenden. (Und wenn Sie verstehen, wie das geht, sagen Sie es mir bitte.)

PS. Dies scheint dem Chow-Test für logistische Regressionen zu ähneln. Alfred DeMaris (2004, S. 283) beschreibt hierfür einen Test.

Verweise:

Ai, Chunrong / Norton, Edward (2003): Interaktionsterme in Logit- und Probit-Modellen, Economic Letters 80, p. 123–129

DeMaris, Alfred (2004): Regression mit sozialen Daten: Modellierung kontinuierlicher und begrenzter Antwortvariablen. John Wiley & Sons, Inc., Hoboken, NJ

mzuba
quelle
Danke für den Hinweis. Ich werde es mir ansehen und hier berichten, wenn ich in dieser Angelegenheit Fortschritte mache. In Bezug auf Ihren vorgeschlagenen Test denke ich nicht, dass er den Job machen wird. Denken Sie zuerst daran, dass die Interaktion in beide Richtungen erfolgt, von x mit w und w mit x. Damit meine ich, dass selbst wenn h0 wahr ist, es immer noch möglich ist, h2 zu sagen: b1 + b2 * Mittelwert (w) ist nicht Null. Darüber hinaus weiß ich im Allgemeinen im Voraus, dass die Null-Hipothese falsch ist, dh im Allgemeinen gibt es keinen Null-Effekt. Bei einer ausreichend großen Stichprobe kann ich feststellen, dass jeder Effekt signifikant ist.
Manoel Galdino
Und noch ein Punkt. Selbst wenn h0 und h2 wahr sind, ist es immer noch möglich, dass h3 gesagt wird: b2 + b3 * (Mittelwert (x) + sd (x))! = 0. Mit anderen Worten, wir sollten nicht nur auf den Mittelwert von x (oder) testen w), aber für die gesamte Werteverteilung, da ein Interaktionsterm eine Möglichkeit ist zu sagen, dass der Vorhersageeffekt je nach Untergruppe von Prädiktoren variiert.
Manoel Galdino
Ich verstehe nicht ganz, was du meinst. Wenn Sie testen, ob b2 + b3 * Mittelwert (x) == 0 ist oder nicht, vergleichen Sie immer mit einer Teststatistik, um festzustellen, ob das Ergebnis signifikant von Null abweicht. Die Standardabweichung von x ist nicht der einzige relevante Faktor.
Mzuba
Über das, was du gesagt hast ... Ich bin mir nicht sicher, ob ich dich auch vollständig verstehe. Auf jeden Fall war einer meiner Punkte: Selbst wenn wir die Nullhypothese, dass b2 + b3 * Mittelwert (x) == 0 ist, nicht ablehnen, bedeutet dies nur, dass wir nicht sagen können, dass der durchschnittliche Effekt von W von abhängig ist Durchschnittswerte von x sind nicht Null. Der springende Punkt eines Interaktionsterms ist jedoch, dass wir die Wirkung von W nicht nur auf das durchschnittliche x, sondern auf die gesamte Verteilung von x konditionieren wollen!
Manoel Galdino
In Ordung. Ich verstehe was du meinst. (Englisch ist auch nicht meine Muttersprache.) Ich glaube, dass das, was Sie geschrieben haben, wahr ist, und deshalb zeichnen Ai / Norton den Interaktionseffekt gegen die gesamte Verteilung von prob (x) - für einige Werte von x ist der Interaktionseffekt positiv, für einige andere nicht. Ich glaube jedoch, dass die Tatsache, dass Sie den Effekt von W berechnen, der ein Dummy ist, die Dinge (?) Erleichtern könnte, da er als Chow-Test, Strukturbruch, Subpopulation usw. interpretiert werden kann. (Möchten Sie berechnen der
Stufeneffekt