Selektionsbias bei Bäumen

8

In Applied Predictive Modeling von Kuhn und Johnson schreiben die Autoren:

Schließlich leiden diese Bäume unter Selektionsverzerrungen: Prädiktoren mit einer höheren Anzahl unterschiedlicher Werte werden gegenüber detaillierteren Prädiktoren bevorzugt (Loh und Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh und Shih (1997) bemerkten: „Die Gefahr besteht, wenn ein Datensatz aus einer Mischung von Informations- und Rauschvariablen besteht und die Rauschvariablen viel mehr Teilungen aufweisen als die Informationsvariablen. Dann besteht eine hohe Wahrscheinlichkeit, dass die Rauschvariablen ausgewählt werden, um die oberen Knoten des Baums zu teilen. Beim Beschneiden entsteht entweder ein Baum mit irreführender Struktur oder überhaupt kein Baum. “

Kuhn, Max; Johnson, Kjell (2013-05-17). Angewandte prädiktive Modellierung (Kindle Locations 5241-5247). Springer New York. Kindle Edition.

Sie beschreiben einige Forschungen zum Bau unvoreingenommener Bäume. Zum Beispiel Lohs GUIDE-Modell.

Wenn ich mich so streng wie möglich an das CART-Framework halte, frage ich mich, ob ich etwas tun kann, um diese Auswahlverzerrung zu minimieren. Zum Beispiel ist das Clustering / Gruppieren von Prädiktoren mit hoher Kardinalität möglicherweise eine Strategie. Aber bis zu welchem ​​Grad sollte man die Gruppierung vornehmen? Wenn ich einen Prädiktor mit 30 Ebenen habe, sollte ich 10 Ebenen gruppieren? fünfzehn? 5?

dal233
quelle
Hier ist eine verwandte Frage und Antwort .
Dal233
1
Beachten Sie, dass CART nicht nur gegen Faktoren mit vielen Ebenen voreingenommen ist, sondern möglicherweise auch gegen kontinuierliche Variablen, wenn Ihre Stichprobengröße groß ist. Gibt es einen bestimmten Grund, warum Sie im CART-Framework bleiben möchten? Neben GUIDE sind bedingte Inferenzbäume eine weitere Option, um Selektionsverzerrungen zu vermeiden.
Dmartin
Mein Eindruck ist, dass für CART mehr Standardcode geschrieben wurde, und außerdem möchte ich die Dinge einfach zu erklären halten.
Dal233
Als ich "Standardcode für CART" sagte, meinte ich auch das gesamte Ökosystem rund um CART. Wie zum Beispiel rpart.plot.
Dal233
ctree und Sie werden sehen, dass das Party-Paket viele der gleichen Funktionen hat wie rpart. Fehlende Daten werden auch über
Ersatzsplits

Antworten:

2

Basierend auf Ihrem Kommentar würde ich mit einem bedingten Inferenz-Framework gehen. Der Code ist in R mithilfe der Funktion ctree im Party-Paket verfügbar. Es verfügt über eine unvoreingenommene Variablenauswahl, und während der Algorithmus, der dem Zeitpunkt und der Art der Aufteilung zugrunde liegt, sich von CART unterscheidet, ist die Logik im Wesentlichen dieselbe. Ein weiterer Vorteil, den die Autoren beschrieben haben (siehe Artikel hier ), ist, dass Sie sich nicht so viele Gedanken über das Beschneiden des Baums machen müssen, um eine Überanpassung zu vermeiden. Der Algorithmus kümmert sich tatsächlich darum, indem er mithilfe von Permutationstests feststellt, ob eine Aufteilung "statistisch signifikant" ist oder nicht.

Dmartin
quelle