Warum berechnen wir den Informationswert?

10

Ich habe die Daten mit kategorialen Variablen und kontinuierlichen Variablen, aber es ist notwendig, den Informationswert in der erklärenden Datenanalyse zu finden.

Geben Sie einfach den Grund an, warum wir zu Beginn der Datenanalyse den Informationswert für jede Variable berechnen, und geben Sie den Grenzwert für den INFORMATIONSWERT an, um die Analyse durchzuführen

user43247
quelle
2
Bitte sagen Sie uns genauer, worauf sich die Berechnung "Informationswert" bezieht: Es scheint keine standardisierte quantitative Bedeutung für diesen Begriff zu geben, die alle Leser auf die gleiche Weise verstehen werden. Wenn Sie Ihre Frage bearbeiten, geben Sie bitte auch mehr Kontext an, damit wir verstehen, welche Art von Analyse Sie diskutieren und wofür Sie den "Grenzwert" verwenden.
whuber

Antworten:

11

Im Allgemeinen liefert der Informationswert ein Maß dafür, wie gut eine Variable in einer Zielvariablen zwischen einer binären Antwort (z. B. "gut" und "schlecht") unterscheiden kann . Die Idee ist, dass eine Variable die einen niedrigen Informationswert hat, die Zielvariable möglicherweise nicht ausreichend klassifiziert und daher als erklärende Variable entfernt wird.Y X.XYX

Um zu sehen, wie dies funktioniert, lassen Sie in Bins gruppieren . Jedes entspricht einer , die einen von zwei Werten annehmen kann, sagen wir 0 oder 1. Dann gilt für bins , ,n x X y Y X i 1 i nXnxXyYXi1in

IV=i=1n(gibi)ln(gi/bi)

wo

0 X i ) / ( # 0 X ) = 0 ibi=(# von in von in das Verhältnis von in Bin allen Bins0Xi)/(#0X)=0i

1 X i ) / ( # 1 X ) = 1 igi=(# von in von in das Verhältnis von in Bin allen Bins1Xi)/(#1X)=1i

X i I V < 0,3ln(gi/bi) wird auch als Beweisgewicht bezeichnet (für bin ). Grenzwerte können variieren und die Auswahl ist subjektiv. Ich benutze oft (wie [1] unten).XiIV<0.3

Im Zusammenhang mit der Kreditbewertung sollten diese beiden Ressourcen hilfreich sein:

[1] http://www.mwsug.org/proceedings/2013/AA/MWSUG-2013-AA14.pdf

[2] http://support.sas.com/resources/papers/proceedings12/141-2012.pdf

dmanuge
quelle
1
Kennen Sie irgendeine Art von Korrektur für die Berechnung des Informationswerts, wenn einer der Behälter entweder alle gut oder alle schlecht ist? Meine Idee ist es, jeder Spalte jedes Fachs 1 hinzuzufügen, um diese Situation zu korrigieren. Ich frage mich, ob dies eine gängige Praxis ist oder ob es andere theoretische Bedenken gibt. Ich denke hauptsächlich über diesen Schritt aus dem Pragmatismus nach.
Zelazny7
Ich habe einige Praktizierende gesehen, die den Begriff mit allem Guten oder allem Schlechten aus der Summe entfernt haben, aber ich würde dies nicht empfehlen, da Sie eine perfekte Assoziation im Wesentlichen aufheben würden. Das Hinzufügen einer Konstante (z. B. c) ist eine interessante Lösung, aber die Auswahl, Konstante und Größe des Behälters wirken sich stark auf Ihre IV aus. Wenn c gegen 0 geht oder die Behältergröße gegen unendlich geht, nähert sich die IV gegen unendlich. Um eine repräsentativere IV zu erhalten, sollten Sie benachbarte Behälter kombinieren, die alle Waren oder alle Fehler enthalten.
Dmanuge