Entscheidungsbaum mit kontinuierlicher Eingabevariable

Es ist bekannt, dass wir beim Erstellen eines Entscheidungsbaums die Eingabevariable vollständig aufteilen und die 'beste' Aufteilung nach statistischem Testansatz oder Verunreinigungsfunktionsansatz finden.

Meine Frage ist, wenn wir eine kontinuierliche Variable als Eingabevariable verwenden (nur wenige doppelte Werte), kann die Anzahl der möglichen Teilungen sehr groß sein, um die "beste" Teilung zu finden, ist zeitaufwändig. Wie würden Datenwissenschaftler damit umgehen?

Ich habe einige Materialien gelesen, in denen Leute eine Zusammenfassung von Ebenen der Eingabe durchführen würden, um die möglichen Teilungen zu begrenzen. ( Beispiel ). Sie erklären jedoch nicht, wie es gemacht wird. Worauf basieren wir, um eine univariate Variable zu gruppieren? Gibt es Ressourcen für weitere Details oder kann jemand diese detailliert erklären?

Vielen Dank!

cart Pe-Perry
quelle

Es gibt nicht einen Algorithmus zum Trainieren einer zufälligen Gesamtstruktur, sondern viele. Zum Beispiel ID3, C4.5, CART, CHAID oder MARS. Die Antwort auf Ihre Frage hängt stark vom verwendeten Algorithmus ab ...

MaxBenChrist

@MaxBenChrist Würde es Ihnen etwas ausmachen, ein bis zwei davon auszuwählen, z. B. CART, um zu erklären, wie die Eingabevariablen geclustert werden? Vielen Dank!

Pe-Perry

Die Algorithmen würden nach Bins / Intervallen aufgeteilt und den Punkt finden, der die gierigsten Ergebnisse liefert.

HelloWorld

Antworten:

Die übliche Methode besteht darin, nur bestimmte Behälter als Aufteilungspunkt / Schwellenwert zu überprüfen. Ich denke, darauf bezieht sich der Autor der von Ihnen geposteten Präsentation. Nehmen wir an, Sie haben eine Zufallsvariable mit kontinuierlicher Eingabe mit den 10 Stichproben $X$

[1,3,4,6,2,5,18,10, -3, -5]

Wahrscheinlich überprüfen Sie nicht jeden Wert von aus den 10 beobachteten Werten als Aufteilungspunkt. Stattdessen würden Sie zum Beispiel berechnen, indem Sie einfach das Quantil 20%, 40%, 60%, 80% aus Ihren Daten überprüfen. Sie bestellen also Ihre Daten $X$

[-5, -3,1,2,3,4,5,6,10,18]

und "gruppieren" Sie Ihre Daten in Bins

[-5, -3], [1,2], [3,4], [5,6], [10,18]

Dann müssten Sie nur -1,2.5,4.5 und 8 als möglichen Aufteilungspunkt überprüfen (Sie interpolieren linear zwischen den Bins).

Das folgende Papier vergleicht drei Regeln, wie die Teilungspunkte auf Test zu wählen. Ich denke, es ist das, wonach du suchst.

@article {chickeringefficient, title = {Effiziente Bestimmung dynamischer Teilungspunkte in einem Entscheidungsbaum}, author = {Chickering, David Maxwell und Meek, Christopher und Rounthwaite, Robert}}

MaxBenChrist
quelle