Was ist eine bessere Kostenfunktion für einen zufälligen Waldbaum: Gini-Index oder Entropie?

12

Was ist eine bessere Kostenfunktion für einen zufälligen Waldbaum: Gini-Index oder Entropie?

Ich versuche, zufällige Gesamtstruktur in Clojure zu implementieren.

Vivek
quelle

Antworten:

9

Wie ich in Introduction to Data Mining von Tan et. al:

Studien haben gezeigt, dass die Wahl des Verunreinigungsmaßes wenig Einfluss auf die Leistung von Entscheidungsbaum-Induktionsalgorithmen hat. Dies liegt daran, dass viele Verunreinigungsmaßnahmen durchaus miteinander vereinbar sind [...]. Tatsächlich hat die Strategie zum Beschneiden des Baums eine größere Auswirkung auf den endgültigen Baum als die Wahl des Verunreinigungsmaßes.

Daher können Sie Gini-Indexe wie CART oder Entropy wie C4.5 verwenden.

Ich würde Entropy verwenden, genauer gesagt das Gain Ratio von C4.5, da Sie das gut geschriebene Buch von Quinlan: C4.5 Programs for Machine Learning leicht befolgen können.

Simone
quelle
3
Kleine Bemerkung - Bei der Entropie werden Protokolle verwendet, was ein Problem mit der Rechenzeit sein kann.
8
Bei dieser Bemerkung geht es um reine Entscheidungsbäume, aber nicht um zufällige Wälder. Normalerweise beschneiden Sie einen Baum nicht in einem zufälligen Wald, weil Sie nicht versuchen, einen besten Baum zu bauen. Es erscheint daher irreführend, über das Wesentliche zu sprechen: das Beschneiden oder das Messen von Verunreinigungen. Das Ziel ist es, den besten Baum für zufällige Gesamtstrukturen zu finden.
Chan-Ho Suh