Eine einfache und klare Erklärung der Gini-Verunreinigung?

9

Im Zusammenhang mit der Aufteilung des Entscheidungsbaums ist nicht ersichtlich, warum die Gini-Verunreinigung vorliegt

i(t)=1j=1kp2(j|t)
ist ein Maß für die Verunreinigung des Knotens t . Gibt es eine einfache Erklärung dafür?
Picaud Vincent
quelle
Diese Antwort auf eine verwandte Frage kann Ihnen helfen, die Intuition besser zu verstehen: stats.stackexchange.com/a/339514/27974
Scott

Antworten:

13

Stellen Sie sich ein Experiment mit vor kmögliche Ausgabekategorien. Kategoriej hat eine Eintrittswahrscheinlichkeit p(j|t) (wo j=1,..k)

Dann reproduzieren Sie die Erfahrung zweimal und machen Sie diese Beobachtungen:

  • die Wahrscheinlichkeit, zwei identische Ausgaben der Kategorie zu erhalten j ist p2(j|t)
  • Die Wahrscheinlichkeit , unabhängig von ihrer Kategorie zwei identische Ausgaben zu erhalten, beträgt:j=1kp2(j|t)
  • Die Wahrscheinlichkeit, zwei verschiedene Ausgaben zu erhalten, ist somit:1- -j=1kp2(j|t)

Das ist es! Die Gini-Verunreinigung ist einfach die Wahrscheinlichkeit, zwei verschiedene Ausgaben zu erhalten, was ein "Verunreinigungsmaß" ist. In die andere Richtung, wenn wir eine habenj so dass p(j|t)=1 (und damit das andere p (j | t) = 0) haben wir eine Gini-Verunreinigung ich(t)=0 und wir werden immer zwei identische Ausgaben der Kategorie erhalten j, was eine "reine" Situation ist!.

Picaud Vincent
quelle
Gleiche Mathematik, aber mit einer praktischeren Interpretation: Es ist natürlich, die Klasse vorherzusagen j=1k eines Elements in der Menge durch Auswahl einer Klasse j mit Wahrscheinlichkeit p(j). 1-Gini gibt Ihnen dann einfach die (Rand-) Genauigkeit. Eine Gini-Verunreinigung von 0 bedeutet also eine 100% ige Genauigkeit bei der Vorhersage der Klasse der Elemente, sodass sie alle derselben Klasse angehören. In ähnlicher Weise bedeutet eine Gini-Verunreinigung von 0,5 eine 50% ige Chance, ein Element des Satzes mit dieser natürlichen Methode usw. korrekt zu klassifizieren.
Eric O Lebigot
0

Gini-Verunreinigung = logische Entropie = Gini-Simpson-Biodiversitätsindex = quadratische Entropie mit logischer Distanzfunktion (1-Kroneckerdelta) usw. Siehe: Ellerman, David. 2018. “Logische Entropie: Einführung in die klassische und quantenlogische Informationstheorie.” Entropie 20 (9): Artikel-ID 679. https://doi.org/10.3390/e20090679 und die darin enthaltenen Referenzen.

David Ellerman
quelle
Ökonomen neigen dazu, dies den Herfindahl-Hirschman-Index zu nennen.
Nick Cox