Ich weiß, dass dies bereits gefragt wurde, und ich habe die Antworten auf die früheren Fragen zum Binning kontinuierlicher Variablen gelesen. Ich verstehe, dass wir generell das Binning vermeiden sollten, da dies möglicherweise dazu führt, dass nützliche Informationen (unter anderem) weggeworfen werden. Ich versuche jedoch, ein logistisches Regressionsmodell zu erstellen, und einer meiner signifikanten Prädiktoren ist eine kontinuierliche Variable. Ich habe 2 verschiedene Modelle ausprobiert. Im ersten Fall habe ich die Variable so wie sie ist (kontinuierlich) eingegeben, während ich sie im zweiten Fall als kategoriale Variable (kategorisiert nach Quartilen) eingegeben habe.
Das zweite Modell (mit der gruppierten Variablen) hatte einen niedrigeren AIC-Wert und einen kreuzvalidierten Fehler. Könnte dies in diesem speziellen Fall als ausreichende Rechtfertigung für das Binning angesehen werden?
Antworten:
Dies bedeutet wahrscheinlich, dass Ihr Prädiktor eine nichtlineare Beziehung zur Antwort hat, und durch Binning kann das Modell einen Teil dieses nichtlinearen Trends erfassen. Wenn Sie sich ein Streudiagramm Ihrer Daten ansehen, können Sie feststellen, welche Anpassungsform geeignet ist. Möglicherweise möchten Sie eine nichtlineare kontinuierliche Anpassungsstrategie versuchen, z. B. Polynom- oder Spline-Basistransformationen.
quelle