Angenommen, ich habe eine glatte Funktion wie . Ich habe einen Trainingssatz D \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \} und, natürlich, ich weiß nicht , f obwohl ich beurteilen kann f wohin ich will.
Sind Regressionsbäume in der Lage, ein glattes Modell der Funktion zu finden (daher sollte eine geringfügige Änderung der Eingabe nur eine geringfügige Änderung der Ausgabe ergeben)?
Nach dem, was ich in Vorlesung 10: Regressionsbäume gelesen habe, scheint es mir, dass Regressionsbäume die Funktionswerte grundsätzlich in Bins einteilen:
Für klassische Regressionsbäume ist das Modell in jeder Zelle nur eine konstante Schätzung von Y.
Während sie "klassisch" schreiben, gibt es wohl eine Variante, bei der die Zellen etwas Interessanteres tun?
quelle
In klassischen Regressionsbäumen haben Sie einen Wert im Blatt, aber im Blatt können Sie ein lineares Regressionsmodell haben. Überprüfen Sie dieses Ticket.
Sie können auch ein Baumensemble (Random Forest oder Gradient Boosting Machines) verwenden, um einen kontinuierlichen Ausgabewert zu erhalten.
quelle
Wenn Sie die Frage geringfügig um allgemeine Techniken zur Erhöhung des Gradienten erweitern (im Gegensatz zum Sonderfall der verstärkten Regressionsbäume), lautet die Antwort Ja. Die Gradientenverstärkung wurde erfolgreich als Alternative für die Variablenauswahl eingesetzt. Ein gutes Beispiel ist das mboost-Paket . Der Schlüssel ist, dass die Klasse der Basislerner, die zum Boosten verwendet werden, zunächst aus kontinuierlichen Modellen besteht. Dieses Tutorial beschreibt typische Klassen von Basislernenden wie folgt:
Beachten Sie, dass Wavelets besonders erwähnt werden. Bäume und Wavelets wurden bereits erfolgreich zu baumbasierten Wavelets kombiniert .
quelle