In diesem Artikel wird behauptet, dass in CART, da bei jedem Schritt eine binäre Aufteilung an einer einzelnen Kovariate durchgeführt wird, alle Aufteilungen orthogonal sind und daher Wechselwirkungen zwischen Kovariaten nicht berücksichtigt werden.
Viele sehr ernsthafte Referenzen behaupten jedoch im Gegenteil, dass die hierarchische Struktur eines Baums garantiert, dass Interaktionen zwischen Prädiktoren automatisch modelliert werden (z. B. dieses Papier und natürlich das Hastie).
Wer hat recht? Erfassen CART-gewachsene Bäume Interaktionen zwischen Eingabevariablen?
Antworten:
CART kann Interaktionseffekte erfassen. Ein Interaktionseffekt zwischen und tritt auf, wenn die Auswirkung der erklärenden Variablen auf die Antwortvariable von der Ebene von abhängt . Dies geschieht im folgenden Beispiel:X1 X2 X1 Y X2
Die Auswirkungen schlechter wirtschaftlicher Bedingungen (nennen dies ) hängen davon ab, welcher Gebäudetyp gekauft wird ( ). Bei einer Investition in ein Bürogebäude verringern schlechte wirtschaftliche Bedingungen den prognostizierten Wert der Investition um 140.000 Dollar. Bei einer Investition in ein Wohnhaus sinkt der prognostizierte Wert der Investition jedoch um 20.000 Dollar. Die Auswirkung schlechter wirtschaftlicher Bedingungen auf den prognostizierten Wert Ihrer Investition hängt von der Art der gekauften Immobilie ab. Dies ist ein Interaktionseffekt.X1 X2
quelle
Kurze Antwort
CARTs benötigen Hilfe bei der Erfassung von Interaktionen.
Lange Antwort
Nehmen Sie den genauen gierigen Algorithmus (Chen und Guestrin, 2016):
Der Mittelwert auf dem Blatt ist eine bedingte Erwartung, aber jede Aufteilung auf dem Weg zum Blatt ist unabhängig von der anderen. Wenn Feature A für sich genommen keine Rolle spielt, aber für die Interaktion mit Feature B von Bedeutung ist, wird der Algorithmus nicht auf Feature A aufgeteilt. Ohne diese Aufteilung kann der Algorithmus die Aufteilung auf Feature B nicht vorhersehen, die zum Generieren der Interaktion erforderlich ist.
Bäume können in den einfachsten Szenarien Interaktionen auswählen. Wenn Sie einen Datensatz mit zwei Merkmalen und Ziel , muss der Algorithmus nur auf und werden. Daher erhalten Sie vier Blätter, wobei richtig geschätzt wird.x1,x2 y=XOR(x1,x2) x1 x2 XOR
Mit vielen Funktionen, der Regularisierung und der harten Begrenzung der Anzahl der Teilungen kann derselbe Algorithmus Interaktionen auslassen.
Problemumgehungen
Explizite Interaktionen als neue Funktionen
Ein Beispiel von Zhang ("Winning Data Science Competitions", 2015):
Nicht gierige Baumalgorithmen
In der anderen Frage schlägt Simone Lookahead-basierte Algorithmen und schräge Entscheidungsbäume vor .
Ein anderer Lernansatz
Einige Lernmethoden handhaben Interaktionen besser.
Hier ist eine Tabelle aus Die Elemente des statistischen Lernens (Zeile "Fähigkeit, lineare Kombinationen von Merkmalen zu extrahieren"):
quelle