Wie sollten Entscheidungsbaumaufteilungen implementiert werden, wenn kontinuierliche Variablen vorhergesagt werden?

15

Eigentlich schreibe ich eine Implementierung von Random Forests, aber ich glaube, die Frage ist spezifisch für Entscheidungsbäume (unabhängig von RFs).

Der Kontext ist also, dass ich einen Knoten in einem Entscheidungsbaum erstelle und sowohl die Vorhersage- als auch die Zielvariable kontinuierlich sind. Der Knoten hat einen aufgeteilten Schwellenwert, um Daten in zwei Mengen zu unterteilen, und ich erstelle eine neue Vorhersage für jede Teilmenge basierend auf dem durchschnittlichen Zielwert in jeder Menge. Ist das der richtige Ansatz?

Der Grund, den ich frage, ist, dass ich bei der Vorhersage binärer Variablen der Meinung bin, dass der typische (richtige?) Ansatz darin besteht, die Daten in 0- und 1-Teilmengen zu unterteilen, ohne einen Durchschnitt über die Datenzeilen in jeder Teilmenge zu bilden. Nachfolgende Aufteilungen teilen sich in feinkörnigere Untergruppen auf und bilden bei jeder Aufteilung einen Durchschnitt der nachfolgenden Aufteilungen (weiter unten im Entscheidungsbaum), die auf nunmehr kontinuierlichen Variablen und nicht auf binären Variablen basieren (weil wir auf den verbleibenden Fehlerwerten anstelle des Originals arbeiten) Ziele).

Nebenfrage: Ist der Unterschied zwischen den beiden Ansätzen (binär und kontinuierlich) signifikant - oder liefern sie tatsächlich identische Ergebnisse für einen vollständigen Entscheidungsbaum?

redcalx
quelle
1
Durch Aufteilen auf eine kontinuierliche Variable wird sichergestellt, dass das resultierende "Modell" nicht richtig zu den Daten passt. Wenn Sie ein kontinuierliches X und ein kontinuierliches Y haben, sollten Sie den nichtparametrischen Lößglätter verwenden.
Frank Harrell
Das Problem, an dem ich gerade arbeite, hat viele Prädiktorvariablen (eine Mischung aus stetig und binär) und eine einzelne Zielvariable. Daher halte ich RF für einen vernünftigen Ansatz.
Redcalx
2
Sehr wahrscheinlich. Ein zufälliger Wald ist jedoch eine Mischung aus Bäumen (kein Entscheidungsbaum). Daher werden kontinuierliche Beziehungen angenähert, indem mehrere Teilungen vorgenommen werden, und im Endeffekt wird die Schrumpfung verwendet. Ich glaube nicht, dass Ihre ursprüngliche Frage zutrifft, wenn ich sie verstehe.
Frank Harrell
Ich bin versucht zu sagen , dass Ihre Beschreibung des kontinuierlichen Fall korrekt ist (dh der normale Weg , Dinge zu tun), aber dann Ihre Beschreibung des Binärgröße Fall entspricht nicht bis überhaupt mit meinem Verständnis davon , wie zufällige Wälder (oder Entscheidung Ich mache mir Sorgen, dass einer von uns verwirrt ist.
Joran
@joran. Ja, wenn Sie Vorhersagen auf 0 oder 1 setzen, verlieren Sie die Fähigkeit, subtile Anpassungen an Vorhersagen (zwischen 0 und 1) vorzunehmen, die den Fehler verringern können (z. B. quadratischer Vorhersagefehler). Als solches vermute ich, dass dieser Ansatz minderwertig ist. Ich habe es versucht und die meisten Versuche, einen Entscheidungsbaum zu erstellen, schlagen fehl, auch nur einen einzigen Split zu finden, der den Fehler verbessert.
Redcalx

Antworten:

10

Ein mögliches Problem bei Bäumen ist, dass sie dazu neigen, schlecht in die Schwänze zu passen. Stellen Sie sich einen Endknoten vor, der die geringe Reichweite des Trainingssatzes erfasst. Es wird vorausgesagt, dass der Mittelwert dieser Trainingssollwerte verwendet wird, der das Ergebnis immer unterschätzt (da es der Mittelwert ist).

Sie könnten versuchen, Bäume zu modellieren [1]. Diese passen in lineare Modelle in die Endknoten und sind (glaube ich) besser als Regressionsbäume. Besser noch, verwenden Sie eine weiterentwickelte Version namens Cubist, die verschiedene Ansätze kombiniert ([1] und [2] unten).

Diese Modelle behandeln auch kontinuierliche und diskrete Prädiktoren unterschiedlich. Sie können kategoriale Variablen in mehrere Richtungen aufteilen. Das Aufteilungskriterium ist CART-Bäumen sehr ähnlich.

Modellbäume befinden sich in R im RWeka-Paket (mit der Bezeichnung 'M5P') und Cubist im Cubist-Paket. Natürlich können Sie auch Weka verwenden, und Cubist stellt auf der RuleQuest-Website eine C-Version zur Verfügung.

[1] Quinlan, J. (1992). Lernen mit kontinuierlichen Klassen. Tagungsband der 5. Australian Joint Conference On Artificial Intelligence, 343–348.

[2] Quinlan, J. (1993). Kombination von instanzbasiertem und modellbasiertem Lernen. Tagungsband der Zehnten Internationalen Konferenz über maschinelles Lernen, 236–243.

topepo
quelle
1
Könnten Sie nicht einfach tiefere Bäume haben, um die schlechte Anpassung an die Schwänze zu minimieren?
Jase