In Applied Predictive Modeling von Kuhn und Johnson schreiben die Autoren:
Schließlich leiden diese Bäume unter Selektionsverzerrungen: Prädiktoren mit einer höheren Anzahl unterschiedlicher Werte werden gegenüber detaillierteren Prädiktoren bevorzugt (Loh und Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh und Shih (1997) bemerkten: „Die Gefahr besteht, wenn ein Datensatz aus einer Mischung von Informations- und Rauschvariablen besteht und die Rauschvariablen viel mehr Teilungen aufweisen als die Informationsvariablen. Dann besteht eine hohe Wahrscheinlichkeit, dass die Rauschvariablen ausgewählt werden, um die oberen Knoten des Baums zu teilen. Beim Beschneiden entsteht entweder ein Baum mit irreführender Struktur oder überhaupt kein Baum. “
Kuhn, Max; Johnson, Kjell (2013-05-17). Angewandte prädiktive Modellierung (Kindle Locations 5241-5247). Springer New York. Kindle Edition.
Sie beschreiben einige Forschungen zum Bau unvoreingenommener Bäume. Zum Beispiel Lohs GUIDE-Modell.
Wenn ich mich so streng wie möglich an das CART-Framework halte, frage ich mich, ob ich etwas tun kann, um diese Auswahlverzerrung zu minimieren. Zum Beispiel ist das Clustering / Gruppieren von Prädiktoren mit hoher Kardinalität möglicherweise eine Strategie. Aber bis zu welchem Grad sollte man die Gruppierung vornehmen? Wenn ich einen Prädiktor mit 30 Ebenen habe, sollte ich 10 Ebenen gruppieren? fünfzehn? 5?
Antworten:
Basierend auf Ihrem Kommentar würde ich mit einem bedingten Inferenz-Framework gehen. Der Code ist in R mithilfe der Funktion ctree im Party-Paket verfügbar. Es verfügt über eine unvoreingenommene Variablenauswahl, und während der Algorithmus, der dem Zeitpunkt und der Art der Aufteilung zugrunde liegt, sich von CART unterscheidet, ist die Logik im Wesentlichen dieselbe. Ein weiterer Vorteil, den die Autoren beschrieben haben (siehe Artikel hier ), ist, dass Sie sich nicht so viele Gedanken über das Beschneiden des Baums machen müssen, um eine Überanpassung zu vermeiden. Der Algorithmus kümmert sich tatsächlich darum, indem er mithilfe von Permutationstests feststellt, ob eine Aufteilung "statistisch signifikant" ist oder nicht.
quelle