Stellen Sie sich ein Experiment mit vor kmögliche Ausgabekategorien. Kategoriej hat eine Eintrittswahrscheinlichkeit p ( j | t ) (wo j = 1 , . . k)
Dann reproduzieren Sie die Erfahrung zweimal und machen Sie diese Beobachtungen:
die Wahrscheinlichkeit, zwei identische Ausgaben der Kategorie zu erhalten j ist p2( j | t )
Die Wahrscheinlichkeit , unabhängig von ihrer Kategorie zwei identische Ausgaben zu erhalten, beträgt:∑j = 1kp2( j | t )
Die Wahrscheinlichkeit, zwei verschiedene Ausgaben zu erhalten, ist somit:1 -∑j = 1kp2( j | t )
Das ist es! Die Gini-Verunreinigung ist einfach die Wahrscheinlichkeit, zwei verschiedene Ausgaben zu erhalten, was ein "Verunreinigungsmaß" ist. In die andere Richtung, wenn wir eine habenj⋆ so dass p (j⋆| t)=1 (und damit das andere p (j | t) = 0) haben wir eine Gini-Verunreinigung i ( t ) = 0 und wir werden immer zwei identische Ausgaben der Kategorie erhalten j⋆, was eine "reine" Situation ist!.
Gleiche Mathematik, aber mit einer praktischeren Interpretation: Es ist natürlich, die Klasse vorherzusagen j = 1 … k eines Elements in der Menge durch Auswahl einer Klasse j mit Wahrscheinlichkeit p ( j ). 1-Gini gibt Ihnen dann einfach die (Rand-) Genauigkeit. Eine Gini-Verunreinigung von 0 bedeutet also eine 100% ige Genauigkeit bei der Vorhersage der Klasse der Elemente, sodass sie alle derselben Klasse angehören. In ähnlicher Weise bedeutet eine Gini-Verunreinigung von 0,5 eine 50% ige Chance, ein Element des Satzes mit dieser natürlichen Methode usw. korrekt zu klassifizieren.
Eric O Lebigot
0
Gini-Verunreinigung = logische Entropie = Gini-Simpson-Biodiversitätsindex = quadratische Entropie mit logischer Distanzfunktion (1-Kroneckerdelta) usw. Siehe: Ellerman, David. 2018. “Logische Entropie: Einführung in die klassische und quantenlogische Informationstheorie.” Entropie 20 (9): Artikel-ID 679. https://doi.org/10.3390/e20090679 und die darin enthaltenen Referenzen.
Antworten:
Stellen Sie sich ein Experiment mit vork mögliche Ausgabekategorien. Kategoriej hat eine Eintrittswahrscheinlichkeit p ( j | t ) (wo j = 1 , . . k )
Dann reproduzieren Sie die Erfahrung zweimal und machen Sie diese Beobachtungen:
Das ist es! Die Gini-Verunreinigung ist einfach die Wahrscheinlichkeit, zwei verschiedene Ausgaben zu erhalten, was ein "Verunreinigungsmaß" ist. In die andere Richtung, wenn wir eine habenj⋆ so dass p (j⋆| t)=1 (und damit das andere p (j | t) = 0) haben wir eine Gini-Verunreinigung i ( t ) = 0 und wir werden immer zwei identische Ausgaben der Kategorie erhalten j⋆ , was eine "reine" Situation ist!.
quelle
Gini-Verunreinigung = logische Entropie = Gini-Simpson-Biodiversitätsindex = quadratische Entropie mit logischer Distanzfunktion (1-Kroneckerdelta) usw. Siehe: Ellerman, David. 2018. “Logische Entropie: Einführung in die klassische und quantenlogische Informationstheorie.” Entropie 20 (9): Artikel-ID 679. https://doi.org/10.3390/e20090679 und die darin enthaltenen Referenzen.
quelle