CHAID vs CRT (oder CART)

23

Ich führe mit SPSS eine Entscheidungsbaumklassifizierung für einen Datensatz mit etwa 20 Prädiktoren durch (kategorial mit wenigen Kategorien). CHAID (Chi-squared Automatic Interaction Detection) und CRT / CART (Classification And Regression Trees) geben mir verschiedene Bäume. Kann jemand die relativen Vorzüge von CHAID vs CRT erklären? Was bedeutet es, eine Methode der anderen vorzuziehen?

Placidia
quelle

Antworten:

23

Ich werde einige Eigenschaften auflisten und Ihnen später meine Einschätzung für das geben, was es wert ist:

  • CHAID verwendet Mehrweg - Splits standardmäßig (Mehrweg - Splits , bedeutet , dass der aktuelle Knoten in mehr als zwei Knoten aufgeteilt wird). Dies kann erwünscht sein oder auch nicht (dies kann zu besseren Segmenten oder einer einfacheren Interpretation führen). Was es jedoch definitiv tut, ist, die Stichprobengröße in den Knoten auszudünnen und somit zu weniger tiefen Bäumen zu führen. Bei Verwendung für Segmentierungszwecke kann dies nach hinten losgehen, sobald CHAID große Stichprobenmengen benötigt, um gut zu funktionieren. CART führt standardmäßig binäre Teilungen durch (jeder Knoten ist in zwei Tochterknoten aufgeteilt).
  • CHAID soll mit kategorialen / diskretisierten Zielen arbeiten (XAID diente der Regression, wurde aber möglicherweise seitdem zusammengeführt). CART kann definitiv Regressionen und Klassifikationen durchführen.
  • CHAID verwendet eine Vorbereinigungsidee . Ein Knoten wird nur dann aufgeteilt, wenn ein Signifikanzkriterium erfüllt ist. Dies steht im Zusammenhang mit dem obigen Problem, dass große Probengrößen erforderlich sind, da der Chi-Quadrat-Test bei kleinen Proben nur eine geringe Leistung aufweist (was durch eine Bonferroni-Korrektur für Mehrfachtests sogar noch weiter verringert wird). CART hingegen lässt einen großen Baum wachsen und schneidet ihn anschließend auf eine kleinere Version zurück.
  • Somit versucht CHAID von Anfang an, eine Überanpassung zu verhindern (nur bei Aufteilung besteht eine signifikante Assoziation), während CART leicht überanpassen kann, wenn der Baum nicht zurückgeschnitten wird. Auf der anderen Seite kann CART dadurch eine bessere Leistung als CHAID in und out-of-sample erzielen (für eine bestimmte Stimmparameterkombination).
  • Der wichtigste Unterschied ist meiner Meinung nach, dass die Auswahl von Split-Variablen und Split-Punkten in CHAID weniger verwirrend ist als in CART . Dies ist weitgehend irrelevant, wenn die Bäume für die Vorhersage verwendet werden, aber ein wichtiges Problem, wenn Bäume für die Interpretation verwendet werden: Ein Baum, bei dem diese beiden Teile des Algorithmus stark verwechselt sind, wird als "voreingenommen in der Variablenauswahl" (ein unglücklicher Name) bezeichnet. . Dies bedeutet, dass die Auswahl von Split-Variablen Variablen mit vielen möglichen Splits (z. B. Metrik-Prädiktoren) bevorzugt. CART ist in diesem Sinne sehr "voreingenommen", CHAID nicht so sehr.
  • Bei Ersatzteilungsvariablen weiß CART, wie mit fehlenden Werten umzugehen ist (Ersatzteilungsvariablen bedeuten, dass der Algorithmus bei fehlenden Werten (NAs) für Prädiktorvariablen andere Prädiktorvariablen verwendet, die nicht so gut sind wie die primäre Teilungsvariable, sondern die vom Primärteiler erzeugten Teilungen imitieren Splitter). CHAID hat so etwas nicht.

Je nachdem, wofür Sie es benötigen, würde ich CHAID empfehlen, wenn das Sample eine gewisse Größe hat und die Aspekte der Interpretation wichtiger sind. Auch wenn Mehrwege-Teilungen oder kleinere Bäume gewünscht werden, ist CHAID besser. CART hingegen ist eine gut funktionierende Vorhersage-Maschine. Wenn Sie also eine Vorhersage anstreben, würde ich mich für CART entscheiden.

Momo
quelle
1
(+1). Schöner Überblick. Können Sie erklären, was "Mehrwege-Splits" und "Ersatz-Splits" sind? Sind Mehrwege-Splits nicht dichotom?
COOLSerdash
1
@Momo: Vielen Dank für die aktualisierte Antwort. In Bezug auf Multiway-Splits habe ich die folgende interessante Aussage von Hastie et al. (2013) Die Elemente des statistischen Lernens : "[...] Obwohl diese [Mehrwegeteilung] manchmal nützlich sein kann, ist sie keine gute allgemeine Strategie. [...] Da Mehrwegeteilung durch eine Reihe von Binärdaten erreicht werden kann Spaltungen, letztere sind bevorzugt. " Ich frage mich, ob dies wirklich so eindeutig ist, wie sie sagen (ich bin nicht sehr erfahren mit maschinellem Lernen), aber andererseits wird ihr Buch als Referenz angesehen.
COOLSerdash
Ja, eine Reihe von binären Teilungen kann mit Mehrwege-Teilungen identisch sein. Sie können auch unterschiedlich sein. Ich stimme der Aussage eher zu. Eine andere zu beachtende Sache ist, dass das Suchen nach Teilungspunkten mit einer umfassenden Suche für binäre Teilungen eines gegebenen Knotens algorithmisch einfacher und schneller ist.
Momo
Sehr vollständige Antwort. Ich habe CHAID in einem Forschungsprojekt mit mehr als 100.000 Datenbanken verwendet. Auf dieser Ebene ist die Klassifizierung sehr genau, aber ich empfehle, es einige Male mit einer anderen Anzahl von Partitionen und den weniger tiefen Ebenen des Baums zu versuchen (die SPSS-Software ermöglicht es, diese Parameter zuvor zu bestimmen). Dies liegt daran, dass CHAID Klassifikationsbäume mit mehreren Gruppen (Multisplit) generiert, und dies ist viel schlimmer, wenn die Datenbank groß ist. Der letzte Baum könnte riesig sein. Schließlich vergessen Sie nicht, die "interne Kontrolle" der Stichprobeneinteilung der Datenbank zu verwenden. Siehe auch die SPSS Klassifikationsbäume Manual auf goo
user35523
Was ist mit QUEST?
Madhu Sareen
8

Alle Einzelbaummethoden beinhalten eine erstaunliche Anzahl von Mehrfachvergleichen, die eine große Instabilität des Ergebnisses bewirken. Aus diesem Grund ist zur Erzielung einer zufriedenstellenden prädiktiven Diskriminierung eine Form der Baummittelwertbildung (Absacken, Boosten, zufällige Wälder) erforderlich (außer dass Sie den Vorteil der Bäume verlieren - Interpretierbarkeit). Die Einfachheit einzelner Bäume ist größtenteils eine Illusion. Sie sind einfach, weil sie in dem Sinne falsch sind, dass das Trainieren des Baums auf mehrere große Teilmengen der Daten große Meinungsverschiedenheiten zwischen Baumstrukturen aufdeckt.

Ich habe mir keine neuere CHAID-Methodik angesehen, aber CHAID in seiner ursprünglichen Inkarnation war eine großartige Übung bei der Überinterpretation von Daten.

Frank Harrell
quelle