Ich studiere Klassifikations- und Regressionsbäume, und eine der Kennzahlen für den geteilten Standort ist der GINI-Score.
Jetzt bin ich es gewohnt, den besten Split-Standort zu bestimmen, wenn das Protokoll des Wahrscheinlichkeitsverhältnisses der gleichen Daten zwischen zwei Verteilungen Null ist, was bedeutet, dass die Wahrscheinlichkeit einer Mitgliedschaft gleich wahrscheinlich ist.
Meine Intuition besagt, dass es irgendeine Verbindung geben muss, dass GINI eine gute Grundlage in einer mathematischen Informationstheorie haben muss (Shannon), aber ich verstehe GINI nicht gut genug, um die Beziehung selbst abzuleiten.
Fragen:
- Was ist die Ableitung der GINI-Verunreinigungsbewertung als Maß für die Aufteilung nach den "ersten Prinzipien"?
- In welcher Beziehung steht der GINI-Score zum Log of Likelihood Ratio oder zu anderen informationstheoretischen Grundlagen (Shannon Entropy, pdf und Cross Entropy gehören dazu)?
Verweise:
- Wie ist das gewichtete Gini-Kriterium definiert?
- Mathematik hinter Klassifikations- und Regressionsbäumen
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(hinzugefügt) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurity
Shannons Entropie wird beschrieben als:
Ausweitung auf den multivariaten Fall, den wir erhalten:
Die bedingte Entropie ist wie folgt definiert:
Das Logbuch des Wahrscheinlichkeitsverhältnisses wird zur abrupten Änderungserkennung herangezogen und daraus abgeleitet. (Ich habe keine Ableitung vor mir.)
GINI-Verunreinigung:
- Die allgemeine Form der GINI-Verunreinigung ist
Gedanken:
- Die Aufteilung erfolgt nach Maßgabe der Verunreinigung. Hohe "Reinheit" ist wahrscheinlich gleichbedeutend mit niedriger Entropie. Der Ansatz hängt wahrscheinlich mit der Minimierung der Entropie zusammen.
- Es ist wahrscheinlich, dass die angenommene Basisverteilung gleichförmig ist oder möglicherweise mit einer Handbewegung nach Gauß. Sie machen wahrscheinlich eine Mischung aus Verteilungen.
- Ich frage mich, ob die Shewhart-Chartableitung hier angewendet werden kann.
- Die GINI-Verunreinigung sieht aus wie das Integral der Wahrscheinlichkeitsdichtefunktion für eine Binomialverteilung mit zwei Versuchen und einem Erfolg.
(zusätzlich)
- Das Formular stimmt auch mit einer Beta-Binomialverteilung überein, die ein Konjugat vor einer hypergeometrischen Verteilung ist. Hypergeometrische Tests werden häufig verwendet, um festzustellen, welche Proben in einer Probe über oder unterrepräsentiert sind. Es gibt auch eine Beziehung zu Fischers genauem Test, was auch immer das ist (Anmerkung für sich selbst, erfahren Sie mehr darüber).
Edit: Ich vermute, dass es eine Form von GINI gibt, die sehr gut mit digitaler Logik und / oder RB-Bäumen funktioniert. Ich hoffe, dass ich dies in einem Klassenprojekt im Herbst erforschen kann.
quelle
Antworten:
Ich werde die gleiche Notation verwenden, die ich hier verwendet habe: Mathematik hinter Klassifikations- und Regressionsbäumen
Je nach Community (Statistik / Data Mining) bevorzugen die Menschen die eine oder die andere Maßnahme (Verwandte Frage hier ). Sie könnten im Entscheidungsbaum-Induktionsprozess ziemlich gleichwertig sein. Log-Likelihood kann ausgeglichenen Partitionen höhere Punktzahlen verleihen, wenn viele Klassen vorhanden sind. [Technischer Hinweis: Einige Eigenschaften von Aufteilungskriterien. Breiman 1996].
Gini Gain kann besser sein, weil es keine Logarithmen gibt und Sie die geschlossene Form für den erwarteten Wert und die Varianz unter der Annahme einer zufälligen Aufteilung finden können [Alin Dobra, Johannes Gehrke: Bias Correction in Classification Tree Construction. ICML 2001: 90 & ndash; 97]. Es ist nicht so einfach für Informationsgewinn (Wenn Sie interessiert sind, finden Sie hier ).
quelle
Gute Frage. Leider habe ich noch nicht genug Ruf, um zu stimmen oder zu kommentieren, also antworte stattdessen!
Ich bin mit dem Ratio-Test nicht sehr vertraut, aber es fällt mir auf, dass es sich um einen Formalismus handelt, der zum Vergleichen der Wahrscheinlichkeit von Daten aus zwei (oder mehr) verschiedenen Verteilungen verwendet wird, während der Gini-Koeffizient eine zusammenfassende Statistik einer einzelnen Verteilung ist.
Ein nützlicher Weg, um den Gini-Koeffizienten (IMO) zu betrachten, ist die Fläche unter der Lorenz-Kurve (bezogen auf das cdf).
Es kann möglich sein, Shannons Entropie mit Gini gleichzusetzen, indem die im OP für Entropie angegebene Definition verwendet wird:
und die Definition von Gini:
Es sieht allerdings nicht nach einer einfachen Aufgabe aus!
quelle