Ich habe die Daten mit kategorialen Variablen und kontinuierlichen Variablen, aber es ist notwendig, den Informationswert in der erklärenden Datenanalyse zu finden.
Geben Sie einfach den Grund an, warum wir zu Beginn der Datenanalyse den Informationswert für jede Variable berechnen, und geben Sie den Grenzwert für den INFORMATIONSWERT an, um die Analyse durchzuführen
data-visualization
user43247
quelle
quelle
Antworten:
Im Allgemeinen liefert der Informationswert ein Maß dafür, wie gut eine Variable in einer Zielvariablen zwischen einer binären Antwort (z. B. "gut" und "schlecht") unterscheiden kann . Die Idee ist, dass eine Variable die einen niedrigen Informationswert hat, die Zielvariable möglicherweise nicht ausreichend klassifiziert und daher als erklärende Variable entfernt wird.Y X.X. Y. X.
Um zu sehen, wie dies funktioniert, lassen Sie in Bins gruppieren . Jedes entspricht einer , die einen von zwei Werten annehmen kann, sagen wir 0 oder 1. Dann gilt für bins , ,n x ∈ X y ∈ Y X i 1 ≤ i ≤ nX. n x ∈ X. y∈ Y. X.ich 1 ≤ i ≤ n
wo
0 X i ) / ( # 0 X ) = 0 ibich= ( # von in von in das Verhältnis von in Bin allen Bins0 X.ich) / ( # 0 X)= 0 i
1 X i ) / ( # 1 X ) = 1 igi=(# von in von in das Verhältnis von in Bin allen Bins1 Xi)/(# 1 X)= 1 i
X i I V < 0,3ln(gi/bi) wird auch als Beweisgewicht bezeichnet (für bin ). Grenzwerte können variieren und die Auswahl ist subjektiv. Ich benutze oft (wie [1] unten).Xi IV<0.3
Im Zusammenhang mit der Kreditbewertung sollten diese beiden Ressourcen hilfreich sein:
[1] http://www.mwsug.org/proceedings/2013/AA/MWSUG-2013-AA14.pdf
[2] http://support.sas.com/resources/papers/proceedings12/141-2012.pdf
quelle