Eine mögliche Erklärung wären Nichtlinearitäten in der Beziehung zwischen Ihrem Ergebnis und dem Prädiktor.
Hier ist ein kleines Beispiel. Wir verwenden einen Prädiktor, der für [−1,1] einheitlich ist . Das Ergebnis hängt jedoch nicht linear vom Prädiktor ab, sondern vom Quadrat des Prädiktors: WAHR ist sowohl für x≈−1 als auch für x≈1 wahrscheinlicher, aber weniger wahrscheinlich für x≈0 . In diesem Fall wird ein lineares Modell unbedeutend, aber das Zerlegen des Prädiktors in Intervalle macht es bedeutend.
> set.seed(1)
> nn <- 1e3
> xx <- runif(nn,-1,1)
> yy <- runif(nn)<1/(1+exp(-xx^2))
>
> library(lmtest)
>
> model_0 <- glm(yy~1,family="binomial")
> model_1 <- glm(yy~xx,family="binomial")
> lrtest(model_1,model_0)
Likelihood ratio test
Model 1: yy ~ xx
Model 2: yy ~ 1
#Df LogLik Df Chisq Pr(>Chisq)
1 2 -676.72
2 1 -677.22 -1 0.9914 0.3194
>
> xx_cut <- cut(xx,c(-1,-0.3,0.3,1))
> model_2 <- glm(yy~xx_cut,family="binomial")
> lrtest(model_2,model_0)
Likelihood ratio test
Model 1: yy ~ xx_cut
Model 2: yy ~ 1
#Df LogLik Df Chisq Pr(>Chisq)
1 3 -673.65
2 1 -677.22 -2 7.1362 0.02821 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Dies bedeutet jedoch nicht, dass die Diskretisierung des Prädiktors der beste Ansatz ist. (Das ist fast nie der Fall.) Viel besser ist es, die Nichtlinearität mit Splines oder ähnlichem zu modellieren .
Ein möglicher Weg ist, wenn die Beziehung eindeutig nichtlinear ist. Es ist nicht möglich zu sagen, ob dies wirklich erklärt, was los ist.
Sie können es selbst überprüfen. Zunächst können Sie ein Diagramm mit hinzugefügten Variablen für die Variable selbst erstellen und die angepassten Effekte in der Faktor-Version des Modells darstellen. Wenn die Erklärung richtig ist, sollten beide ein deutlich nichtlineares Muster sehen.
quelle