Was ist eine bessere Kostenfunktion für einen zufälligen Waldbaum: Gini-Index oder Entropie?
Ich versuche, zufällige Gesamtstruktur in Clojure zu implementieren.
Was ist eine bessere Kostenfunktion für einen zufälligen Waldbaum: Gini-Index oder Entropie?
Ich versuche, zufällige Gesamtstruktur in Clojure zu implementieren.
Wie ich in Introduction to Data Mining von Tan et. al:
Studien haben gezeigt, dass die Wahl des Verunreinigungsmaßes wenig Einfluss auf die Leistung von Entscheidungsbaum-Induktionsalgorithmen hat. Dies liegt daran, dass viele Verunreinigungsmaßnahmen durchaus miteinander vereinbar sind [...]. Tatsächlich hat die Strategie zum Beschneiden des Baums eine größere Auswirkung auf den endgültigen Baum als die Wahl des Verunreinigungsmaßes.
Daher können Sie Gini-Indexe wie CART oder Entropy wie C4.5 verwenden.
Ich würde Entropy verwenden, genauer gesagt das Gain Ratio von C4.5, da Sie das gut geschriebene Buch von Quinlan: C4.5 Programs for Machine Learning leicht befolgen können.