Erfassen CART-Bäume Interaktionen zwischen Prädiktoren?

9

In diesem Artikel wird behauptet, dass in CART, da bei jedem Schritt eine binäre Aufteilung an einer einzelnen Kovariate durchgeführt wird, alle Aufteilungen orthogonal sind und daher Wechselwirkungen zwischen Kovariaten nicht berücksichtigt werden.

Viele sehr ernsthafte Referenzen behaupten jedoch im Gegenteil, dass die hierarchische Struktur eines Baums garantiert, dass Interaktionen zwischen Prädiktoren automatisch modelliert werden (z. B. dieses Papier und natürlich das Hastie).

Wer hat recht? Erfassen CART-gewachsene Bäume Interaktionen zwischen Eingabevariablen?

Antoine
quelle
Der Fehler im Argument besteht darin, dass Teilungen von Teilmengen von Kovariaten vorgenommen werden, die durch zuvor durchgeführte Teilungen definiert sind.
@mbq, also sind die neuen Teilungen in Bezug auf die vorhergehenden Teilungen bedingt ... Ich verstehe ... Ich glaube, ich hatte Probleme zu verstehen, dass "bedingt durch eine vorherige Teilung, die mit einem bestimmten Prädiktor durchgeführt wurde" gleichbedeutend mit "Interaktion mit diesem Prädiktor" war "...
Antoine

Antworten:

12

CART kann Interaktionseffekte erfassen. Ein Interaktionseffekt zwischen und tritt auf, wenn die Auswirkung der erklärenden Variablen auf die Antwortvariable von der Ebene von abhängt . Dies geschieht im folgenden Beispiel:X1X2X1YX2

Geben Sie hier die Bildbeschreibung ein

Die Auswirkungen schlechter wirtschaftlicher Bedingungen (nennen dies ) hängen davon ab, welcher Gebäudetyp gekauft wird ( ). Bei einer Investition in ein Bürogebäude verringern schlechte wirtschaftliche Bedingungen den prognostizierten Wert der Investition um 140.000 Dollar. Bei einer Investition in ein Wohnhaus sinkt der prognostizierte Wert der Investition jedoch um 20.000 Dollar. Die Auswirkung schlechter wirtschaftlicher Bedingungen auf den prognostizierten Wert Ihrer Investition hängt von der Art der gekauften Immobilie ab. Dies ist ein Interaktionseffekt.X1X2

TrynnaDoStat
quelle
2

Kurze Antwort

CARTs benötigen Hilfe bei der Erfassung von Interaktionen.

Lange Antwort

Nehmen Sie den genauen gierigen Algorithmus (Chen und Guestrin, 2016):

Der genaue gierige Algorithmus

Der Mittelwert auf dem Blatt ist eine bedingte Erwartung, aber jede Aufteilung auf dem Weg zum Blatt ist unabhängig von der anderen. Wenn Feature A für sich genommen keine Rolle spielt, aber für die Interaktion mit Feature B von Bedeutung ist, wird der Algorithmus nicht auf Feature A aufgeteilt. Ohne diese Aufteilung kann der Algorithmus die Aufteilung auf Feature B nicht vorhersehen, die zum Generieren der Interaktion erforderlich ist.

Bäume können in den einfachsten Szenarien Interaktionen auswählen. Wenn Sie einen Datensatz mit zwei Merkmalen und Ziel , muss der Algorithmus nur auf und werden. Daher erhalten Sie vier Blätter, wobei richtig geschätzt wird.x1,x2y=XOR(x1,x2)x1x2XOR

Mit vielen Funktionen, der Regularisierung und der harten Begrenzung der Anzahl der Teilungen kann derselbe Algorithmus Interaktionen auslassen.

Problemumgehungen

Explizite Interaktionen als neue Funktionen

Ein Beispiel von Zhang ("Winning Data Science Competitions", 2015):

Zhang über Interaktionen

Nicht gierige Baumalgorithmen

In der anderen Frage schlägt Simone Lookahead-basierte Algorithmen und schräge Entscheidungsbäume vor .

Ein anderer Lernansatz

Einige Lernmethoden handhaben Interaktionen besser.

Hier ist eine Tabelle aus Die Elemente des statistischen Lernens (Zeile "Fähigkeit, lineare Kombinationen von Merkmalen zu extrahieren"):

Vergleich der Lernmethoden

Anton Tarasenko
quelle