Hier sind ein paar, die mir einfallen:
- Sie können sehr empfindlich auf kleine Störungen in den Daten reagieren: Eine geringfügige Änderung kann zu einem drastisch anderen Baum führen.
- Sie können leicht überanstrengen. Dies kann durch Überprüfungsmethoden und Bereinigen negiert werden, dies ist jedoch ein grauer Bereich.
- Sie können Probleme mit der Vorhersage außerhalb der Stichprobe haben (dies hängt damit zusammen, dass sie nicht glatt sind).
Einige davon hängen mit dem Problem der Multikollinearität zusammen : Wenn zwei Variablen dasselbe erklären, wählt ein Entscheidungsbaum gierig die beste aus, während viele andere Methoden beide verwenden. Ensemble-Methoden wie zufällige Gesamtstrukturen können dies bis zu einem gewissen Grad negieren, aber Sie verlieren die Verständlichkeit.
Das größte Problem ist jedoch, zumindest aus meiner Sicht, das Fehlen eines prinzipiellen probabilistischen Rahmens. Viele andere Methoden haben Konfidenzintervalle, posteriore Verteilungen usw., die uns eine Vorstellung davon geben, wie gut ein Modell ist. Ein Entscheidungsbaum ist letztendlich eine Ad - hoc - Heuristik, die immer noch sehr nützlich sein kann (sie eignen sich hervorragend zum Auffinden von Fehlerquellen in der Datenverarbeitung), aber es besteht die Gefahr, dass Benutzer die Ausgabe als "das" richtige Modell behandeln (von mir) Erfahrung, das passiert viel im Marketing).
Ein Nachteil ist, dass angenommen wird, dass alle Begriffe interagieren. Das heißt, Sie können nicht zwei erklärende Variablen haben, die sich unabhängig voneinander verhalten. Jede Variable im Baum ist gezwungen, mit jeder Variablen weiter oben im Baum zu interagieren. Dies ist äußerst ineffizient, wenn es Variablen gibt, die keine oder nur schwache Wechselwirkungen aufweisen.
quelle
Meine Antwort richtet sich an CART (die C 4.5 / C 5-Implementierungen), obwohl ich glaube, dass sie nicht darauf beschränkt sind. Ich vermute, das ist es, was das OP im Sinn hat - es ist normalerweise das, was jemand meint, wenn er "Entscheidungsbaum" sagt.
Einschränkungen von Entscheidungsbäumen :
Schlechte Leistung
Mit "Leistung" meine ich nicht Auflösung, sondern Ausführungsgeschwindigkeit . Der Grund dafür ist, dass Sie den Baum jedes Mal neu zeichnen müssen, wenn Sie Ihr WARENKORB - Modell aktualisieren möchten - Daten, die von einem bereits trainierten Baum klassifiziert wurden und die Sie dann zum Baum hinzufügen möchten (dh als Trainingsdatenpunkt) erfordert, dass Sie von Übertrainingsinstanzen ausgehen, die nicht inkrementell hinzugefügt werden können, wie dies bei den meisten anderen überwachten Lernalgorithmen der Fall ist. Dies lässt sich am besten damit erklären, dass Decision Trees nicht im Online-Modus, sondern nur im Batch-Modus trainiert werden können. Natürlich werden Sie diese Einschränkung nicht bemerken, wenn Sie Ihren Klassifikator nicht aktualisieren, aber dann würde ich erwarten, dass Sie einen Rückgang der Auflösung sehen.
Dies ist von Bedeutung, da beispielsweise bei mehrschichtigen Perzeptronen nach dem Training die Klassifizierung der Daten beginnen kann. Diese Daten können auch verwendet werden, um den bereits trainierten Klassifikator zu optimieren. Bei Decision Trees müssen Sie jedoch den gesamten Datensatz (die im Training verwendeten Originaldaten sowie alle neuen Instanzen) neu trainieren.
Schlechte Auflösung von Daten mit komplexen Beziehungen zwischen den Variablen
Entscheidungsbäume klassifizieren durch schrittweise Bewertung eines Datenpunkts unbekannter Klasse, wobei jeweils ein Knoten am Wurzelknoten beginnt und mit einem Endknoten endet. Und an jedem Knoten sind nur zwei Möglichkeiten möglich (links-rechts), daher gibt es einige variable Beziehungen, die Decision Trees einfach nicht lernen können.
Praktisch auf die Klassifizierung beschränkt
Entscheidungsbäume funktionieren am besten, wenn sie trainiert sind, einen Datenpunkt einer Klasse zuzuweisen - vorzugsweise einer von nur wenigen möglichen Klassen. Ich glaube nicht, dass ich jemals einen Erfolg bei der Verwendung eines Entscheidungsbaums im Regressionsmodus hatte (dh kontinuierliche Ausgabe wie Preis oder erwartete Einnahmen auf Lebenszeit). Dies ist keine formale oder inhärente Einschränkung, sondern eine praktische. In den meisten Fällen werden Entscheidungsbäume zur Vorhersage von Faktoren oder diskreten Ergebnissen verwendet.
Schlechte Auflösung bei kontinuierlichen Erwartungsvariablen
Grundsätzlich ist es auch hier in Ordnung, unabhängige Variablen wie "Download-Zeit" oder "Anzahl der Tage seit dem letzten Online-Kauf" zu verwenden. Ändern Sie einfach Ihr Aufteilungskriterium in "Varianz" (normalerweise "Informationsentropie" oder "Gini-Verunreinigung" für diskrete Variablen) Erfahrung Entscheidungsbäume funktionieren in diesen Fällen selten gut. Ausnahmen sind Fälle wie das "Studentenalter", das kontinuierlich aussieht, aber in der Praxis ist der Wertebereich relativ klein (insbesondere, wenn sie als ganze Zahlen angegeben werden).
quelle
Hier gibt es gute Antworten, aber ich bin überrascht, dass eine Sache nicht betont wurde. CART macht keine verteilenden Annahmen über die Daten, insbesondere die Antwortvariable. Im Gegensatz dazu OLS Regression (für die kontinuierlichen Reaktionsvariablen) und logistische Regression (für bestimmte kategorische Variablen), zum Beispiel, sie machen starke Annahmen; Insbesondere geht die OLS-Regression davon aus, dass die Antwort bedingt normal verteilt ist, und die Logistik geht davon aus, dass die Antwort binomial oder multinomial ist.
Das Fehlen solcher Annahmen bei CART ist ein zweischneidiges Schwert. Wenn diese Annahmen nicht gerechtfertigt sind, bietet dies dem Ansatz einen relativen Vorteil. Wenn andererseits diese Annahmen zutreffen, können mehr Informationen aus den Daten extrahiert werden, indem diese Tatsachen berücksichtigt werden. Das heißt, Standard-Regressionsmethoden können informativer sein als CART, wenn die Annahmen zutreffen.
quelle