Angenommen , wir haben zwei Regressionsbäume (Baum A und B - Baum) , die Karteneingabe zur Ausgabe y ∈ R . Lassen y = f A ( x ) für Baum - A und f B ( x ) für Baum B. Jeder Baum binäre Splits verwendet, mit Hyperebenen wie die Trennfunktionen.
Nehmen wir nun an, wir nehmen eine gewichtete Summe der Baumausgaben:
Entspricht die Funktion einem einzelnen (tieferen) Regressionsbaum? Wenn die Antwort "manchmal" ist, unter welchen Bedingungen?
Idealerweise möchte ich schräge Hyperebenen zulassen (dh Teilungen, die an linearen Merkmalskombinationen durchgeführt werden). Unter der Annahme, dass Splits mit nur einem Merkmal in Ordnung sind, ist dies jedoch die einzige verfügbare Antwort.
Beispiel
Hier sind zwei Regressionsbäume, die in einem 2D-Eingaberaum definiert sind:
Die Abbildung zeigt, wie die einzelnen Baumpartitionen den Eingabebereich und die Ausgabe für jede Region (in Graustufen codiert) teilen. Farbige Zahlen kennzeichnen Bereiche des Eingaberaums: 3,4,5,6 entsprechen Blattknoten. 1 ist die Vereinigung von 3 & 4 usw.
Nehmen wir nun an, wir mitteln die Leistung der Bäume A und B:
Links ist die Durchschnittsleistung aufgetragen, wobei die Entscheidungsgrenzen der Bäume A und B überlagert sind. In diesem Fall ist es möglich, einen einzelnen, tieferen Baum zu konstruieren, dessen Ausgabe dem Durchschnitt entspricht (rechts dargestellt). Jeder Knoten entspricht einer Region des Eingaberaums, die aus den Regionen konstruiert werden kann, die durch die Bäume A und B definiert sind (angezeigt durch farbige Zahlen auf jedem Knoten; mehrere Zahlen geben den Schnittpunkt zweier Regionen an). Beachten Sie, dass dieser Baum nicht eindeutig ist - wir hätten von Baum B anstelle von Baum A aus bauen können.
Dieses Beispiel zeigt, dass es Fälle gibt, in denen die Antwort "Ja" lautet. Ich würde gerne wissen, ob dies immer wahr ist.
quelle
Antworten:
Ja, die gewichtete Summe eines Regressionsbaums entspricht einem einzelnen (tieferen) Regressionsbaum.
Universeller Funktionsapproximator
Ein Regressionsbaum ist ein universeller Funktionsapproximator (siehe zB cstheory ). Die meisten Untersuchungen zu Näherungen universeller Funktionen werden an künstlichen neuronalen Netzen mit einer verborgenen Schicht durchgeführt (lesen Sie diesen großartigen Blog). Die meisten Algorithmen für maschinelles Lernen sind jedoch universelle Funktionsnäherungen.
Als universeller Funktionsapproximator kann jede beliebige Funktion näherungsweise dargestellt werden. Egal wie komplex die Funktion wird, eine universelle Funktionsnäherung kann sie mit jeder gewünschten Genauigkeit darstellen. Im Falle eines Regressionsbaums können Sie sich einen unendlich tiefen Baum vorstellen. Dieser unendlich tiefe Baum kann jedem Punkt im Raum einen beliebigen Wert zuweisen.
Da eine gewichtete Summe eines Regressionsbaums eine andere willkürliche Funktion ist, gibt es einen anderen Regressionsbaum, der diese Funktion darstellt.
Ein Algorithmus zum Erstellen eines solchen Baums
Das folgende Beispiel zeigt zwei einfache Bäume, denen das Gewicht 0,5 hinzugefügt wurde. Beachten Sie, dass ein Knoten niemals erreicht wird, da es keine Nummer gibt, die kleiner als 3 und größer als 5 ist. Dies zeigt an, dass diese Bäume verbessert werden können, macht sie jedoch nicht ungültig.
Warum komplexere Algorithmen verwenden?
Eine interessante zusätzliche Frage wurde von @ usεr11852 in den Kommentaren aufgeworfen: Warum sollten wir Boosting-Algorithmen (oder tatsächlich einen komplexen Algorithmus für maschinelles Lernen) verwenden, wenn jede Funktion mit einem einfachen Regressionsbaum modelliert werden kann?
Regressionsbäume können zwar jede Funktion darstellen, dies ist jedoch nur ein Kriterium für einen Algorithmus für maschinelles Lernen. Eine wichtige andere Eigenschaft ist, wie gut sie verallgemeinern. Tiefe Regressionsbäume sind anfällig für Überanpassung, dh sie verallgemeinern sich nicht gut. Ein zufälliger Wald durchschnitt viele tiefe Bäume, um dies zu verhindern.
quelle