Können Regressionsbäume kontinuierlich vorhersagen?

11

Angenommen, ich habe eine glatte Funktion wie . Ich habe einen Trainingssatz D \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \} und, natürlich, ich weiß nicht , f obwohl ich beurteilen kann f wohin ich will.f(x,y)=x2+y2D{((x,y),f(x,y))|(x,y)R2}ff

Sind Regressionsbäume in der Lage, ein glattes Modell der Funktion zu finden (daher sollte eine geringfügige Änderung der Eingabe nur eine geringfügige Änderung der Ausgabe ergeben)?

Nach dem, was ich in Vorlesung 10: Regressionsbäume gelesen habe, scheint es mir, dass Regressionsbäume die Funktionswerte grundsätzlich in Bins einteilen:

Für klassische Regressionsbäume ist das Modell in jeder Zelle nur eine konstante Schätzung von Y.

Während sie "klassisch" schreiben, gibt es wohl eine Variante, bei der die Zellen etwas Interessanteres tun?

Martin Thoma
quelle

Antworten:

2

Regressionsbäume, insbesondere die Erhöhung des Gradienten (im Wesentlichen viele Bäume), eignen sich sehr gut für kontinuierliche Vorhersagen und übertreffen häufig Modelle, die wie lineare Regression wirklich kontinuierlich sind, wenn. Dies gilt insbesondere dann, wenn es variable Interaktionen gibt und wenn Sie über einen ausreichend großen Datensatz (über 10.000 Datensätze) verfügen, sodass eine Überanpassung weniger wahrscheinlich ist. Wenn Ihr primäres Ziel einfach die Vorhersagekraft ist, sollte es irrelevant sein, ob das Modell zu 100% kontinuierlich oder pseudokontinuierlich ist. Wenn Ihre Regressionsbäume durch die Vorhersagekraft der Stichprobe kontinuierlicher werden, können Sie einfach die Baumtiefe erhöhen oder weitere Bäume hinzufügen.

Ryan Zotti
quelle
1
Genau. Meine gebohrten Bäume übertreffen fast immer sehr sorgfältig gefertigte und optimierte GLMs. Natürlich verlieren Sie die Interpretierbarkeit, wenn Sie Vorhersagekraft gewinnen.
Prooffreader
0

In klassischen Regressionsbäumen haben Sie einen Wert im Blatt, aber im Blatt können Sie ein lineares Regressionsmodell haben. Überprüfen Sie dieses Ticket.

Sie können auch ein Baumensemble (Random Forest oder Gradient Boosting Machines) verwenden, um einen kontinuierlichen Ausgabewert zu erhalten.

pplonski
quelle
0

Wenn Sie die Frage geringfügig um allgemeine Techniken zur Erhöhung des Gradienten erweitern (im Gegensatz zum Sonderfall der verstärkten Regressionsbäume), lautet die Antwort Ja. Die Gradientenverstärkung wurde erfolgreich als Alternative für die Variablenauswahl eingesetzt. Ein gutes Beispiel ist das mboost-Paket . Der Schlüssel ist, dass die Klasse der Basislerner, die zum Boosten verwendet werden, zunächst aus kontinuierlichen Modellen besteht. Dieses Tutorial beschreibt typische Klassen von Basislernenden wie folgt:

Die häufig verwendeten Modelle für Basislerner können in drei verschiedene Kategorien eingeteilt werden: lineare Modelle, glatte Modelle und Entscheidungsbäume. Es gibt auch eine Reihe anderer Modelle, wie Markov-Zufallsfelder (Dietterich et al., 2004) oder Wavelets (Viola und Jones, 2001), aber ihre Anwendung ergibt sich für relativ spezifische praktische Aufgaben.

Beachten Sie, dass Wavelets besonders erwähnt werden. Bäume und Wavelets wurden bereits erfolgreich zu baumbasierten Wavelets kombiniert .

user3605620
quelle
Was sind die kontinuierlichen Basislerner bei der Steigerung des Gradienten? Wenn die Antwort Entscheidungsbäume sind, können Sie bitte erklären, wie sie fortlaufend sind?
Martin Thoma
Ich habe meine Antwort aktualisiert. Der Schlüssel ist die Verwendung kontinuierlicher baumartiger Prädiktoren.
user3605620