Durch das Kategorisieren einer Variablen wird sie von unbedeutend zu bedeutend

17

Ich habe eine numerische Variable, die in einem multivariaten logistischen Regressionsmodell nicht signifikant ist. Wenn ich es jedoch in Gruppen einteile, wird es plötzlich bedeutsam. Das ist für mich sehr kontraintuitiv: Wenn wir eine Variable kategorisieren, geben wir einige Informationen auf.

Wie kann das sein?

Omry Atia
quelle

Antworten:

25

Eine mögliche Erklärung wären Nichtlinearitäten in der Beziehung zwischen Ihrem Ergebnis und dem Prädiktor.

Hier ist ein kleines Beispiel. Wir verwenden einen Prädiktor, der für [1,1] einheitlich ist . Das Ergebnis hängt jedoch nicht linear vom Prädiktor ab, sondern vom Quadrat des Prädiktors: WAHR ist sowohl für x1 als auch für x1 wahrscheinlicher, aber weniger wahrscheinlich für x0 . In diesem Fall wird ein lineares Modell unbedeutend, aber das Zerlegen des Prädiktors in Intervalle macht es bedeutend.

> set.seed(1)
> nn <- 1e3
> xx <- runif(nn,-1,1)
> yy <- runif(nn)<1/(1+exp(-xx^2))
> 
> library(lmtest)
> 
> model_0 <- glm(yy~1,family="binomial")
> model_1 <- glm(yy~xx,family="binomial")
> lrtest(model_1,model_0)
Likelihood ratio test

Model 1: yy ~ xx
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)
1   2 -676.72                     
2   1 -677.22 -1 0.9914     0.3194
> 
> xx_cut <- cut(xx,c(-1,-0.3,0.3,1))
> model_2 <- glm(yy~xx_cut,family="binomial")
> lrtest(model_2,model_0)
Likelihood ratio test

Model 1: yy ~ xx_cut
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)  
1   3 -673.65                       
2   1 -677.22 -2 7.1362    0.02821 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Dies bedeutet jedoch nicht, dass die Diskretisierung des Prädiktors der beste Ansatz ist. (Das ist fast nie der Fall.) Viel besser ist es, die Nichtlinearität mit oder ähnlichem zu modellieren .

S. Kolassa - Setzen Sie Monica wieder ein
quelle
Gibt es einige Beispiele, bei denen eine Diskretisierung sinnvoll sein könnte? Zum Beispiel, wenn Sie einen bestimmten Schwellenwert haben (z. B. Alter 18), bei dem ein binärer Ergebniswechsel auftritt. Das numerische Alter im Bereich 18+ ist möglicherweise nicht signifikant, aber das binäre Alter> 18 ist möglicherweise signifikant?
Ajrwhite
3
@ajrwhite: es kommt auf das feld an. Überall dort, wo Schwellenwerte gesetzlich festgelegt sind, kann eine Diskretisierung sinnvoll sein. Wenn Sie beispielsweise das Abstimmungsverhalten modellieren, ist es sinnvoll zu prüfen, ob eine Person im Alter von 18 Jahren tatsächlich abstimmungsberechtigt ist. Ebenso hängt in Deutschland Ihre Kfz-Steuer von Ihrem Hubraum ab und springt bei 1700, 1800, 1900, ... ccm , so ziemlich alle Autos haben Verschiebungen von 1699, 1799, ... ccm (Art der Selbstdiskretisierung). In den Naturwissenschaften wie Biologie, Medizin, Psychologie usw. finde ich kein Beispiel, in dem Diskretisierung Sinn macht.
S. Kolassa - Setzen Sie Monica
7

Ein möglicher Weg ist, wenn die Beziehung eindeutig nichtlinear ist. Es ist nicht möglich zu sagen, ob dies wirklich erklärt, was los ist.

Sie können es selbst überprüfen. Zunächst können Sie ein Diagramm mit hinzugefügten Variablen für die Variable selbst erstellen und die angepassten Effekte in der Faktor-Version des Modells darstellen. Wenn die Erklärung richtig ist, sollten beide ein deutlich nichtlineares Muster sehen.

Glen_b - Setzen Sie Monica wieder ein
quelle