Wie finde und bewerte ich die optimale Diskretisierung für eine kontinuierliche Variable mit dem Kriterium ?

Ich habe einen Datensatz mit kontinuierlicher Variable und einer binären Zielvariablen (0 und 1).

Ich muss die kontinuierlichen Variablen (für die logistische Regression) in Bezug auf die Zielvariable und mit der Einschränkung diskretisieren, dass die Beobachtungshäufigkeit in jedem Intervall ausgeglichen sein sollte. Ich habe maschinelle Lernalgorithmen wie Chi Merge und Entscheidungsbäume ausprobiert. Durch Chi-Merge erhielt ich Intervalle mit sehr unausgeglichenen Zahlen in jedem Intervall (ein Intervall mit 3 Beobachtungen und ein weiteres mit 1000). Die Entscheidungsbäume waren schwer zu interpretieren.

Ich kam zu dem Schluss, dass eine optimale Diskretisierung die Statistik zwischen der diskretisierten Variablen und der Zielvariablen maximieren und Intervalle aufweisen sollte, die ungefähr die gleiche Anzahl von Beobachtungen enthalten. $\chi^2$

Gibt es einen Algorithmus zur Lösung dieses Problems?

So könnte es in R aussehen (def ist die Zielvariable und x die zu diskretisierende Variable). Ich habe Tschuprows berechnet , um die "Korrelation" zwischen der transformierten und der Zielvariablen zu bewerten, da die Statistik tendenziell mit der Anzahl der Intervalle zunimmt. Ich bin mir nicht sicher, ob dies der richtige Weg ist. $T$ $\chi^2$

Gibt es eine andere Möglichkeit zu bewerten, ob meine Diskretisierung optimal ist als Tschuprows (nimmt zu, wenn die Anzahl der Klassen abnimmt)? $T$

chitest <- function(x){
  interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE)
  X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic
  #Tschuprow
  Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1))))
  print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup))
}

r machine-learning chi-squared discrete-data supervised-learning Charlotte
quelle

Sie wissen das vielleicht; Für die Aufzeichnung ist es jedoch (1) weder notwendig noch häufig wünschenswert, Prädiktoren für die logistische Regression zu diskretisieren, und (2) die Verwendung der Antwort zur Definition der Prädiktoren führt eine optimistische Verzerrung in die Schätzung der Vorhersageleistung Ihres Modells ein Daher ist es wichtig, das gesamte Anpassungsverfahren zu validieren (dh einschließlich der Methode, mit der Sie die Prädiktoren bilden).

Scortchi - Monica wieder einsetzen

Ok, wie kann ich die Diskretisierung validieren, wie funktioniert das?

Charlotte

Wenn Sie beispielsweise eine Kreuzvalidierung verwenden, führen Sie in jeder Falte nicht nur die logistische Regression mit der "optimalen" Diskretisierung der aus der gesamten Stichprobe ermittelten Prädiktoren durch, sondern berechnen auch die "optimale" Diskretisierung neu.

Scortchi - Monica wieder einsetzen

Es gibt viele Möglichkeiten, eine kontinuierliche Variable zu diskretisieren: siehe [Garcia 2013]

Auf Seite 739 konnte ich mindestens 5 Methoden sehen, die auf Chi-Quadrat basieren. Die Optimalität der Diskretisierung hängt tatsächlich von der Aufgabe ab, in der Sie die diskretisierte Variable verwenden möchten. In Ihrem Fall logistische Regression. Und wie in Garcia2013 erläutert, ist das Finden der optimalen Diskretisierung für eine Aufgabe NP-vollständig.

Es gibt jedoch viele Heuristiken. In diesem Artikel diskutieren sie mindestens 50 von ihnen. Angesichts meines maschinellen Lernhintergrunds (ich denke, die Leute in der Statistik bevorzugen andere Dinge) bin ich oft voreingenommen gegenüber der MDL-Methode (Minimum Description Length) von Fayyad und Irani. Ich sehe, dass es in der Diskretisierung des R-Pakets verfügbar ist

Wie Sie sagten, ist das Chi-Quadrat auf eine hohe Anzahl von Intervallen ausgerichtet, und viele andere Statistiken (wie der in der MDL-Methode verwendete Informationsgewinn) sind es. MDL versucht jedoch, einen guten Kompromiss zwischen dem Informationsgewinn der diskretisierten Variablen und der Klasse und der Komplexität (Anzahl der Intervalle) der diskretisierten Variablen zu finden. Versuche es.

Simone
quelle

Ihr Garcia 2013-Link scheint defekt zu sein. Würde es Ihnen etwas ausmachen, weitere Details zu diesem Artikel zu veröffentlichen oder erneut zu verlinken?

Kiran K.

@ KiranK. Danke für die Information. Ich habe den Link repariert.

Simone

Wie finde und bewerte ich die optimale Diskretisierung für eine kontinuierliche Variable mit dem Kriterium ?

Antworten: