Standardentscheidungsbaumalgorithmen wie ID3 und C4.5 haben einen Brute-Force-Ansatz zur Auswahl des Schnittpunkts in einem kontinuierlichen Feature. Jeder einzelne Wert wird als möglicher Schnittpunkt geprüft. (Mit getestet meine ich, dass zB der Informationsgewinn bei jedem möglichen Wert berechnet wird.)
Mit vielen fortlaufenden Funktionen und vielen Daten (daher viele Werte für jede Funktion) scheint dieser Ansatz sehr ineffizient zu sein!
Ich gehe davon aus, dass es ein heißes Thema im maschinellen Lernen ist, einen besseren Weg zu finden, dies zu tun. Tatsächlich ergab meine Google Scholar-Suche einige alternative Ansätze. Zum Beispiel mit k-Mitteln diskretisieren. Dann scheint es viele Artikel zu geben, die sich mit bestimmten Problemen in bestimmten Bereichen befassen.
Aber gibt es ein aktuelles Übersichtsartikel, einen Blogbeitrag oder ein Buch, das einen Überblick über gängige Ansätze zur Diskretisierung gibt? Ich konnte keinen finden ...
Oder vielleicht ist einer von Ihnen ein Experte auf diesem Gebiet und bereit, einen kleinen Überblick zu schreiben. Das wäre enorm hilfreich!
quelle