Eigentlich schreibe ich eine Implementierung von Random Forests, aber ich glaube, die Frage ist spezifisch für Entscheidungsbäume (unabhängig von RFs).
Der Kontext ist also, dass ich einen Knoten in einem Entscheidungsbaum erstelle und sowohl die Vorhersage- als auch die Zielvariable kontinuierlich sind. Der Knoten hat einen aufgeteilten Schwellenwert, um Daten in zwei Mengen zu unterteilen, und ich erstelle eine neue Vorhersage für jede Teilmenge basierend auf dem durchschnittlichen Zielwert in jeder Menge. Ist das der richtige Ansatz?
Der Grund, den ich frage, ist, dass ich bei der Vorhersage binärer Variablen der Meinung bin, dass der typische (richtige?) Ansatz darin besteht, die Daten in 0- und 1-Teilmengen zu unterteilen, ohne einen Durchschnitt über die Datenzeilen in jeder Teilmenge zu bilden. Nachfolgende Aufteilungen teilen sich in feinkörnigere Untergruppen auf und bilden bei jeder Aufteilung einen Durchschnitt der nachfolgenden Aufteilungen (weiter unten im Entscheidungsbaum), die auf nunmehr kontinuierlichen Variablen und nicht auf binären Variablen basieren (weil wir auf den verbleibenden Fehlerwerten anstelle des Originals arbeiten) Ziele).
Nebenfrage: Ist der Unterschied zwischen den beiden Ansätzen (binär und kontinuierlich) signifikant - oder liefern sie tatsächlich identische Ergebnisse für einen vollständigen Entscheidungsbaum?
quelle
Antworten:
Ein mögliches Problem bei Bäumen ist, dass sie dazu neigen, schlecht in die Schwänze zu passen. Stellen Sie sich einen Endknoten vor, der die geringe Reichweite des Trainingssatzes erfasst. Es wird vorausgesagt, dass der Mittelwert dieser Trainingssollwerte verwendet wird, der das Ergebnis immer unterschätzt (da es der Mittelwert ist).
Sie könnten versuchen, Bäume zu modellieren [1]. Diese passen in lineare Modelle in die Endknoten und sind (glaube ich) besser als Regressionsbäume. Besser noch, verwenden Sie eine weiterentwickelte Version namens Cubist, die verschiedene Ansätze kombiniert ([1] und [2] unten).
Diese Modelle behandeln auch kontinuierliche und diskrete Prädiktoren unterschiedlich. Sie können kategoriale Variablen in mehrere Richtungen aufteilen. Das Aufteilungskriterium ist CART-Bäumen sehr ähnlich.
Modellbäume befinden sich in R im RWeka-Paket (mit der Bezeichnung 'M5P') und Cubist im Cubist-Paket. Natürlich können Sie auch Weka verwenden, und Cubist stellt auf der RuleQuest-Website eine C-Version zur Verfügung.
[1] Quinlan, J. (1992). Lernen mit kontinuierlichen Klassen. Tagungsband der 5. Australian Joint Conference On Artificial Intelligence, 343–348.
[2] Quinlan, J. (1993). Kombination von instanzbasiertem und modellbasiertem Lernen. Tagungsband der Zehnten Internationalen Konferenz über maschinelles Lernen, 236–243.
quelle