Wenn ich meine Variablen in zwei separaten (univariaten) logistischen Regressionsmodellen analysiere, erhalte ich Folgendes:
Predictor 1: B= 1.049, SE=.352, Exp(B)=2.85, 95% CI=(1.43, 5.69), p=.003
Constant: B=-0.434, SE=.217, Exp(B)=0.65, p=.046
Predictor 2: B= 1.379, SE=.386, Exp(B)=3.97, 95% CI=(1.86, 8.47), p<.001
Constant: B=-0.447, SE=.205, Exp(B)=0.64, p=.029
Wenn ich sie jedoch in ein einzelnes multiples logistisches Regressionsmodell eingebe, erhalte ich:
Predictor 1: B= 0.556, SE=.406, Exp(B)=1.74, 95% CI=(0.79, 3.86), p=.171
Predictor 2: B= 1.094, SE=.436, Exp(B)=2.99, 95% CI=(1.27, 7.02), p=.012
Constant: B=-0.574, SE=.227, Exp(B)=0.56, p=.012
Beide Prädiktoren sind dichotom (kategorisch). Ich habe auf Multikollinearität geprüft.
Ich bin nicht sicher, ob ich genügend Informationen gegeben habe, aber ich kann nicht verstehen, warum Prädiktor 1 von signifikant zu nicht signifikant geworden ist und warum die Quotenverhältnisse im multiplen Regressionsmodell so unterschiedlich sind. Kann jemand eine grundlegende Erklärung geben, was los ist?
Antworten:
Es gibt mehrere Gründe (von denen keiner speziell mit der logistischen Regression zusammenhängt, aber bei jeder Regression auftreten kann).
Korrelation von Regressoren: Ihre Regressoren können miteinander verwandt sein und etwas Ähnliches effektiv messen. Angenommen, Ihr Logit-Modell besteht darin, den Arbeitsmarktstatus (arbeiten / nicht arbeiten) als Funktion von Erfahrung und Alter zu erklären. Individuell stehen beide Variablen in positivem Zusammenhang mit dem Status, da erfahrene / ältere Mitarbeiter (die sehr alte Mitarbeiter aus Gründen des Arguments ausschließen) es leichter finden, einen Arbeitsplatz zu finden als Absolventen der letzten Jahre. Offensichtlich sind die beiden Variablen eng miteinander verbunden, da Sie älter sein müssen, um mehr Erfahrung zu haben. Daher "konkurrieren" die beiden Variablen grundsätzlich um die Erklärung des Status, was insbesondere bei kleinen Stichproben dazu führen kann, dass beide Variablen "verlieren", da keiner der Effekte stark genug und ausreichend genau geschätzt sein kann, wenn der andere gesteuert wird signifikante Schätzungen. Im Wesentlichen fragen Sie sich: Was ist der positive Effekt eines weiteren Jahres Erfahrung, wenn das Alter konstant gehalten wird? Es gibt möglicherweise nur sehr wenige bis gar keine Mitarbeiter in Ihrem Datensatz, die diese Frage beantworten. Daher wird der Effekt ungenau geschätzt, was zu großen p-Werten führt.
Falsch spezifizierte Modelle: Die zugrunde liegende Theorie für t-Statistiken / p-Werte erfordert, dass Sie ein korrekt spezifiziertes Modell schätzen. Wenn Sie sich nur auf einen Prädiktor zurückbilden, ist die Wahrscheinlichkeit sehr hoch, dass dieses univariate Modell unter einer ausgelassenen variablen Verzerrung leidet. Daher sind alle Wetten hinsichtlich des Verhaltens von p-Werten ungültig. Grundsätzlich müssen Sie darauf achten, ihnen zu vertrauen, wenn Ihr Modell nicht korrekt ist.
quelle
Es gibt keinen besonderen Grund, warum dies nicht passieren sollte. Die multiple Regression stellt eine andere Frage als die einfache Regression. Insbesondere fragt die multiple Regression (in diesem Fall die multiple logistische Regression) nach der Beziehung zwischen den abhängigen Variablen und den unabhängigen Variablen und steuert die anderen unabhängigen Variablen. Die einfache Regression fragt nach der Beziehung zwischen einer abhängigen Variablen und einer (einzelnen) unabhängigen Variablen.
Wenn Sie den Kontext Ihrer Studie hinzufügen (z. B. was sind diese Variablen?), Können möglicherweise spezifischere Antworten gegeben werden. Da es sich bei allen drei Variablen in Ihrem Fall um Dichotomien handelt, können Sie uns die Daten auch ganz einfach präsentieren. Es sind nur 8 Zeilen erforderlich, um dies zusammenzufassen:
etc.
quelle