Gini-Koeffizient gegen Gini-Verunreinigung - Entscheidungsbäume

25

Das Problem bezieht sich auf die Erstellung von Entscheidungsbäumen. Laut Wikipedia sollte ' Gini-Koeffizient ' nicht mit ' Gini-Verunreinigung ' verwechselt werden . Beide Kennzahlen können jedoch beim Erstellen eines Entscheidungsbaums verwendet werden. Diese können unsere Auswahl bei der Aufteilung der Elementmenge unterstützen.

1) 'Gini-Verunreinigung' - Es handelt sich um eine standardmäßige Metrik zur Aufteilung des Entscheidungsbaums (siehe Link oben).

2) 'Gini-Koeffizient' - Jede Aufteilung kann auf der Grundlage des AUC-Kriteriums bewertet werden. Für jedes Aufteilungsszenario können wir eine ROC-Kurve erstellen und die AUC-Metrik berechnen. Laut Wikipedia AUC = (GiniCoeff + 1) / 2;

Die Frage ist: Sind beide Maßnahmen gleichwertig? Einerseits bin ich darüber informiert, dass der Gini-Koeffizient nicht mit der Gini-Verunreinigung verwechselt werden sollte. Auf der anderen Seite können beide Maßnahmen verwendet werden, um dasselbe zu tun - die Qualität eines Entscheidungsbaumsplits zu bewerten.

Damien
quelle
Ich bin auf diese Frage gekommen und habe nach einer Definition gesucht: en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity
Martin Thoma

Antworten:

28

Nein, trotz ihrer Namen sind sie nicht gleichwertig oder ähnlich.

  • Gini-Verunreinigung ist ein Maß für die Fehlklassifizierung, die in einem Kontext mit mehreren Klassifizierern angewendet wird.
  • Der Gini-Koeffizient gilt für die binäre Klassifizierung und erfordert einen Klassifizierer, der Beispiele in gewisser Weise nach der Wahrscheinlichkeit einer positiven Klassifizierung einstufen kann.

Beide könnten in einigen Fällen angewendet werden, aber sie sind unterschiedliche Maßnahmen für verschiedene Dinge. Verunreinigung wird häufig in Entscheidungsbäumen verwendet .

Sean Owen
quelle
7

Ich habe ein Datenbeispiel mit zwei Personen A und B mit dem Vermögen von Einheit 1 bzw. Einheit 3 ​​genommen. Gini-Verunreinigung nach Wikipedia = 1 - [(1/4) ^ 2 + (3/4) ^ 2] = 3/8

Der Gini-Koeffizient gemäß Wikipedia ist das Verhältnis der Fläche zwischen der roten und der blauen Linie zur Gesamtfläche unter der blauen Linie in der folgenden Grafik

Bildbeschreibung hier eingeben

Die Fläche unter der roten Linie beträgt 1/2 + 1 + 3/2 = 3

Gesamtfläche unter der blauen Linie = 4

Also Gini-Koeffizient = 3/4

Es ist klar, dass die beiden Zahlen unterschiedlich sind. Ich werde weitere Fälle prüfen, um festzustellen, ob sie verhältnismäßig sind oder ob eine genaue Beziehung besteht, und die Antwort bearbeiten.

Bearbeiten: Ich habe auch nach anderen Kombinationen gesucht, das Verhältnis ist nicht konstant. Unten finden Sie eine Liste einiger Kombinationen, die ich ausprobiert habe. Bildbeschreibung hier eingeben

Gaurav Singhal
quelle
Was für eine Erklärung !!
Ausreißer
0

Ich denke, beide vertreten dasselbe Konzept.

In Klassifizierungsbäumen wird der Gini-Index verwendet, um die Verunreinigung einer Datenpartition zu berechnen. Nehmen wir also die Datenpartition D an, die aus 4 Klassen mit jeweils gleicher Wahrscheinlichkeit besteht. Dann ist der Gini-Index (Gini-Verunreinigung): Gini (D) = 1 - (0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2)

Im WARENKORB führen wir binäre Aufteilungen durch. Der Gini-Index wird also als gewichtete Summe der resultierenden Partitionen berechnet, und wir wählen den Split mit dem kleinsten Gini-Index aus.

Die Verwendung von Gini Impurity (Gini Index) ist also nicht auf binäre Situationen beschränkt.

Ein anderer Begriff für Gini Impurity ist Gini Coefficient, der normalerweise als Maß für die Einkommensverteilung verwendet wird.

Pasmod Turing
quelle
3
Der Gini-Koeffizient ist keine Gini-Verunreinigung. Siehe die Links in der Frage
Sean Owen
2
Wikipedia ist nicht immer eine zuverlässige Informationsquelle :-)
Pasmod Turing
2
Sicher. Suchen Sie woanders nach: mathworld.wolfram.com/GiniCoefficient.html Warum denken Sie, Gini-Koeffizient = Gini-Verunreinigung?
Sean Owen
Nachschlagen
1
Ich denke, wir sprechen über Entscheidungsbäume. Wir sind also auf dem Gebiet des maschinellen Lernens! Bitte lesen Sie die Frage genauer durch
Pasmod Turing