Das Problem bezieht sich auf die Erstellung von Entscheidungsbäumen. Laut Wikipedia sollte ' Gini-Koeffizient ' nicht mit ' Gini-Verunreinigung ' verwechselt werden . Beide Kennzahlen können jedoch beim Erstellen eines Entscheidungsbaums verwendet werden. Diese können unsere Auswahl bei der Aufteilung der Elementmenge unterstützen.
1) 'Gini-Verunreinigung' - Es handelt sich um eine standardmäßige Metrik zur Aufteilung des Entscheidungsbaums (siehe Link oben).
2) 'Gini-Koeffizient' - Jede Aufteilung kann auf der Grundlage des AUC-Kriteriums bewertet werden. Für jedes Aufteilungsszenario können wir eine ROC-Kurve erstellen und die AUC-Metrik berechnen. Laut Wikipedia AUC = (GiniCoeff + 1) / 2;
Die Frage ist: Sind beide Maßnahmen gleichwertig? Einerseits bin ich darüber informiert, dass der Gini-Koeffizient nicht mit der Gini-Verunreinigung verwechselt werden sollte. Auf der anderen Seite können beide Maßnahmen verwendet werden, um dasselbe zu tun - die Qualität eines Entscheidungsbaumsplits zu bewerten.
quelle
Antworten:
Nein, trotz ihrer Namen sind sie nicht gleichwertig oder ähnlich.
Beide könnten in einigen Fällen angewendet werden, aber sie sind unterschiedliche Maßnahmen für verschiedene Dinge. Verunreinigung wird häufig in Entscheidungsbäumen verwendet .
quelle
Ich habe ein Datenbeispiel mit zwei Personen A und B mit dem Vermögen von Einheit 1 bzw. Einheit 3 genommen. Gini-Verunreinigung nach Wikipedia = 1 - [(1/4) ^ 2 + (3/4) ^ 2] = 3/8
Der Gini-Koeffizient gemäß Wikipedia ist das Verhältnis der Fläche zwischen der roten und der blauen Linie zur Gesamtfläche unter der blauen Linie in der folgenden Grafik
Die Fläche unter der roten Linie beträgt 1/2 + 1 + 3/2 = 3
Gesamtfläche unter der blauen Linie = 4
Also Gini-Koeffizient = 3/4
Es ist klar, dass die beiden Zahlen unterschiedlich sind. Ich werde weitere Fälle prüfen, um festzustellen, ob sie verhältnismäßig sind oder ob eine genaue Beziehung besteht, und die Antwort bearbeiten.
Bearbeiten: Ich habe auch nach anderen Kombinationen gesucht, das Verhältnis ist nicht konstant. Unten finden Sie eine Liste einiger Kombinationen, die ich ausprobiert habe.
quelle
Ich denke, beide vertreten dasselbe Konzept.
In Klassifizierungsbäumen wird der Gini-Index verwendet, um die Verunreinigung einer Datenpartition zu berechnen. Nehmen wir also die Datenpartition D an, die aus 4 Klassen mit jeweils gleicher Wahrscheinlichkeit besteht. Dann ist der Gini-Index (Gini-Verunreinigung): Gini (D) = 1 - (0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2)
Im WARENKORB führen wir binäre Aufteilungen durch. Der Gini-Index wird also als gewichtete Summe der resultierenden Partitionen berechnet, und wir wählen den Split mit dem kleinsten Gini-Index aus.
Die Verwendung von Gini Impurity (Gini Index) ist also nicht auf binäre Situationen beschränkt.
Ein anderer Begriff für Gini Impurity ist Gini Coefficient, der normalerweise als Maß für die Einkommensverteilung verwendet wird.
quelle