Signifikante Prädiktoren werden bei der multiplen logistischen Regression nicht signifikant

11

Wenn ich meine Variablen in zwei separaten (univariaten) logistischen Regressionsmodellen analysiere, erhalte ich Folgendes:

Predictor 1:    B= 1.049,    SE=.352,    Exp(B)=2.85,    95% CI=(1.43, 5.69),    p=.003
   Constant:    B=-0.434,    SE=.217,    Exp(B)=0.65,                            p=.046

Predictor 2:    B= 1.379,    SE=.386,    Exp(B)=3.97,    95% CI=(1.86, 8.47),    p<.001
   Constant:    B=-0.447,    SE=.205,    Exp(B)=0.64,                            p=.029

Wenn ich sie jedoch in ein einzelnes multiples logistisches Regressionsmodell eingebe, erhalte ich:

Predictor 1:    B= 0.556,    SE=.406,    Exp(B)=1.74,    95% CI=(0.79, 3.86),    p=.171
Predictor 2:    B= 1.094,    SE=.436,    Exp(B)=2.99,    95% CI=(1.27, 7.02),    p=.012
   Constant:    B=-0.574,    SE=.227,    Exp(B)=0.56,                            p=.012

Beide Prädiktoren sind dichotom (kategorisch). Ich habe auf Multikollinearität geprüft.

Ich bin nicht sicher, ob ich genügend Informationen gegeben habe, aber ich kann nicht verstehen, warum Prädiktor 1 von signifikant zu nicht signifikant geworden ist und warum die Quotenverhältnisse im multiplen Regressionsmodell so unterschiedlich sind. Kann jemand eine grundlegende Erklärung geben, was los ist?

Annie
quelle
2
Multivariate zeigt normalerweise mehrere abhängige Variablen an - Sie meinten mehrere Prädiktoren, richtig? Dies wird normalerweise als multiple Regression bezeichnet.
Makro
1
β
ah, ok danke. Ich habe die Kollinearitätsdiagnose durch lineare Regression auf spss überprüft und die Toleranz und das VIF überprüft - ist das richtig?
Annie
Netter Kommentar @Macro. Ich erinnere mich vage daran, wie ich dieses Problem mit der Waage beheben konnte, aber ich weiß nicht mehr, wo.
Peter Flom - Reinstate Monica
1
π2/3

Antworten:

20

Es gibt mehrere Gründe (von denen keiner speziell mit der logistischen Regression zusammenhängt, aber bei jeder Regression auftreten kann).

  1. Verlust von Freiheitsgraden: Wenn Sie versuchen, mehr Parameter aus einem bestimmten Datensatz zu schätzen, fragen Sie effektiv nach mehr, was Präzision kostet und daher zu niedrigeren t-Statistiken und damit zu höheren p-Werten führt.
  2. Korrelation von Regressoren: Ihre Regressoren können miteinander verwandt sein und etwas Ähnliches effektiv messen. Angenommen, Ihr Logit-Modell besteht darin, den Arbeitsmarktstatus (arbeiten / nicht arbeiten) als Funktion von Erfahrung und Alter zu erklären. Individuell stehen beide Variablen in positivem Zusammenhang mit dem Status, da erfahrene / ältere Mitarbeiter (die sehr alte Mitarbeiter aus Gründen des Arguments ausschließen) es leichter finden, einen Arbeitsplatz zu finden als Absolventen der letzten Jahre. Offensichtlich sind die beiden Variablen eng miteinander verbunden, da Sie älter sein müssen, um mehr Erfahrung zu haben. Daher "konkurrieren" die beiden Variablen grundsätzlich um die Erklärung des Status, was insbesondere bei kleinen Stichproben dazu führen kann, dass beide Variablen "verlieren", da keiner der Effekte stark genug und ausreichend genau geschätzt sein kann, wenn der andere gesteuert wird signifikante Schätzungen. Im Wesentlichen fragen Sie sich: Was ist der positive Effekt eines weiteren Jahres Erfahrung, wenn das Alter konstant gehalten wird? Es gibt möglicherweise nur sehr wenige bis gar keine Mitarbeiter in Ihrem Datensatz, die diese Frage beantworten. Daher wird der Effekt ungenau geschätzt, was zu großen p-Werten führt.

  3. Falsch spezifizierte Modelle: Die zugrunde liegende Theorie für t-Statistiken / p-Werte erfordert, dass Sie ein korrekt spezifiziertes Modell schätzen. Wenn Sie sich nur auf einen Prädiktor zurückbilden, ist die Wahrscheinlichkeit sehr hoch, dass dieses univariate Modell unter einer ausgelassenen variablen Verzerrung leidet. Daher sind alle Wetten hinsichtlich des Verhaltens von p-Werten ungültig. Grundsätzlich müssen Sie darauf achten, ihnen zu vertrauen, wenn Ihr Modell nicht korrekt ist.

Christoph Hanck
quelle
Vielen Dank für Ihre gründliche und schnelle Antwort. Ich werde zuerst versuchen, jegliche Multikollinearität zu beseitigen. Ich habe Korrelationen zwischen Variablen durchgeführt und einige gefunden und werde versuchen, Varianzinflationsfaktoren auszuführen, da ich gehört habe, dass dies auch ein guter Weg ist, dies zu überprüfen. Wenn sich herausstellt, dass es sich nur um eine Frage der Freiheitsgrade handelt, kann ich dann etwas dagegen tun? Ich kann erklären, dass dies geschieht, aber es scheint die Integrität der Regression zu gefährden, wenn die Signifikanz so stark abnimmt.
Sam O'Brien
3
@ SamO'Brien: Beachten Sie, dass Sie, wenn Ihr Ziel wirklich das ist, was Sie gesagt haben, "versuchen zu bestimmen," welche unabhängigen Variablen möglicherweise eine Reaktion hervorrufen "- einige ignorieren, nur weil sie mit anderen korrelieren, um" jegliche Multikollinearität zu beseitigen ". wird nicht helfen, es zu erreichen.
Scortchi - Reinstate Monica
1
Ist es möglich, es umgekehrt zu haben, dh denselben Prädiktor, der bei einfacher Regression nicht signifikant, bei multipler Regression jedoch signifikant ist?
GKCN
8

Es gibt keinen besonderen Grund, warum dies nicht passieren sollte. Die multiple Regression stellt eine andere Frage als die einfache Regression. Insbesondere fragt die multiple Regression (in diesem Fall die multiple logistische Regression) nach der Beziehung zwischen den abhängigen Variablen und den unabhängigen Variablen und steuert die anderen unabhängigen Variablen. Die einfache Regression fragt nach der Beziehung zwischen einer abhängigen Variablen und einer (einzelnen) unabhängigen Variablen.

Wenn Sie den Kontext Ihrer Studie hinzufügen (z. B. was sind diese Variablen?), Können möglicherweise spezifischere Antworten gegeben werden. Da es sich bei allen drei Variablen in Ihrem Fall um Dichotomien handelt, können Sie uns die Daten auch ganz einfach präsentieren. Es sind nur 8 Zeilen erforderlich, um dies zusammenzufassen:

DVIV1IV2CountAAA10AAB20

etc.

Peter Flom - Monica wieder einsetzen
quelle