Wann wird Gini-Verunreinigung verwendet und wann wird Informationsgewinn verwendet?

11

Kann mir bitte jemand erklären, wann Gini-Verunreinigung und Informationsgewinn für Entscheidungsbäume verwendet werden sollen? Können Sie mir Situationen / Beispiele geben, wann welche am besten zu verwenden ist?

Jack Twain
quelle

Antworten:

9

Sie sollten beide im Rahmen der Parameteroptimierung ausprobieren.

Theoretisch minimiert die Gini-Verunreinigung den Brier-Score, während der Entropie- / Informationsgewinn den Protokollverlust minimiert, sodass derjenige, an dem Sie interessiert sind, einen Unterschied macht. Andere Dinge wie die Wahrscheinlichkeit, dass jeder multivariate Effekte beim gierigen Baumwachstum entdeckt, anstatt von univariaten Effekten "abgelenkt" zu werden, die ebenfalls in die Dinge hineinspielen. Das heißt, Sie erhalten möglicherweise eine bessere Verallgemeinerung durch eine Verunreinigungsmetrik, die nicht immer die "beste" Aufteilung auswählt.

In der Praxis (im Zusammenhang mit RF, mehr als Cart) habe ich festgestellt, dass Entropie besser für sauberere, niedrigdimensionale Datensätze funktioniert, bei denen Sie versuchen, ein komplexeres Signal so gut wie möglich anzupassen, während Gini für verrauschte, hochdimensionale Daten besser funktioniert solche, bei denen Sie versuchen, ein einfaches Signal aus vielen verrauschten potenziellen Signalen aufzudecken. Dies ist jedoch nur meine Erfahrung und wird mit ziemlicher Sicherheit nicht in allen Fällen zutreffen.

Hinweis: Begonnen als Kommentar, aber gelöscht und zu einer Antwort verschoben, um eine Erweiterung der Dinge zu formatieren.

Ryan Bressler
quelle