Es ist bekannt, dass wir beim Erstellen eines Entscheidungsbaums die Eingabevariable vollständig aufteilen und die 'beste' Aufteilung nach statistischem Testansatz oder Verunreinigungsfunktionsansatz finden.
Meine Frage ist, wenn wir eine kontinuierliche Variable als Eingabevariable verwenden (nur wenige doppelte Werte), kann die Anzahl der möglichen Teilungen sehr groß sein, um die "beste" Teilung zu finden, ist zeitaufwändig. Wie würden Datenwissenschaftler damit umgehen?
Ich habe einige Materialien gelesen, in denen Leute eine Zusammenfassung von Ebenen der Eingabe durchführen würden, um die möglichen Teilungen zu begrenzen. ( Beispiel ). Sie erklären jedoch nicht, wie es gemacht wird. Worauf basieren wir, um eine univariate Variable zu gruppieren? Gibt es Ressourcen für weitere Details oder kann jemand diese detailliert erklären?
Vielen Dank!
Antworten:
Die übliche Methode besteht darin, nur bestimmte Behälter als Aufteilungspunkt / Schwellenwert zu überprüfen. Ich denke, darauf bezieht sich der Autor der von Ihnen geposteten Präsentation. Nehmen wir an, Sie haben eine Zufallsvariable mit kontinuierlicher Eingabe mit den 10 StichprobenX.
Wahrscheinlich überprüfen Sie nicht jeden Wert von aus den 10 beobachteten Werten als Aufteilungspunkt. Stattdessen würden Sie zum Beispiel berechnen, indem Sie einfach das Quantil 20%, 40%, 60%, 80% aus Ihren Daten überprüfen. Sie bestellen also Ihre DatenX.
und "gruppieren" Sie Ihre Daten in Bins
Dann müssten Sie nur -1,2.5,4.5 und 8 als möglichen Aufteilungspunkt überprüfen (Sie interpolieren linear zwischen den Bins).
Das folgende Papier vergleicht drei Regeln, wie die Teilungspunkte auf Test zu wählen. Ich denke, es ist das, wonach du suchst.
@article {chickeringefficient, title = {Effiziente Bestimmung dynamischer Teilungspunkte in einem Entscheidungsbaum}, author = {Chickering, David Maxwell und Meek, Christopher und Rounthwaite, Robert}}
quelle