Entspricht die Summe von zwei Entscheidungsbäumen einem einzelnen Entscheidungsbaum?

15

Angenommen , wir haben zwei Regressionsbäume (Baum A und B - Baum) , die Karteneingabe zur Ausgabe yR . Lassen y = f A ( x ) für Baum - A und f B ( x ) für Baum B. Jeder Baum binäre Splits verwendet, mit Hyperebenen wie die Trennfunktionen.xRdy^Ry^=fEIN(x)fB(x)

Nehmen wir nun an, wir nehmen eine gewichtete Summe der Baumausgaben:

fC(x)=wEIN fEIN(x)+wB fB(x)

Entspricht die Funktion einem einzelnen (tieferen) Regressionsbaum? fCWenn die Antwort "manchmal" ist, unter welchen Bedingungen?

Idealerweise möchte ich schräge Hyperebenen zulassen (dh Teilungen, die an linearen Merkmalskombinationen durchgeführt werden). Unter der Annahme, dass Splits mit nur einem Merkmal in Ordnung sind, ist dies jedoch die einzige verfügbare Antwort.

Beispiel

Hier sind zwei Regressionsbäume, die in einem 2D-Eingaberaum definiert sind:

Bildbeschreibung hier eingeben

Die Abbildung zeigt, wie die einzelnen Baumpartitionen den Eingabebereich und die Ausgabe für jede Region (in Graustufen codiert) teilen. Farbige Zahlen kennzeichnen Bereiche des Eingaberaums: 3,4,5,6 entsprechen Blattknoten. 1 ist die Vereinigung von 3 & 4 usw.

Nehmen wir nun an, wir mitteln die Leistung der Bäume A und B:

Bildbeschreibung hier eingeben

Links ist die Durchschnittsleistung aufgetragen, wobei die Entscheidungsgrenzen der Bäume A und B überlagert sind. In diesem Fall ist es möglich, einen einzelnen, tieferen Baum zu konstruieren, dessen Ausgabe dem Durchschnitt entspricht (rechts dargestellt). Jeder Knoten entspricht einer Region des Eingaberaums, die aus den Regionen konstruiert werden kann, die durch die Bäume A und B definiert sind (angezeigt durch farbige Zahlen auf jedem Knoten; mehrere Zahlen geben den Schnittpunkt zweier Regionen an). Beachten Sie, dass dieser Baum nicht eindeutig ist - wir hätten von Baum B anstelle von Baum A aus bauen können.

Dieses Beispiel zeigt, dass es Fälle gibt, in denen die Antwort "Ja" lautet. Ich würde gerne wissen, ob dies immer wahr ist.

user20160
quelle
2
Hmm .. Wenn das der Fall wäre, warum würden wir dann einen zufälligen Wald trainieren? (Weil die lineare Kombination von 500 Bäumen eindeutig als 499 gewichtete paarweise Summen von 500 Bäumen ausgedrückt werden kann.) Schöne Frage, +1.
usεr11852 sagt Reinstate Monic
interessante Frage! Ich würde davon ausgehen, dass der Hypothesenraum von Entscheidungsbäumen und Entscheidungsbaumensembles (Boosting, lineare Kombination von Bäumen) derselbe ist. Ich freue mich auf eine Antwort ..
Laksan Nathan
@ usεr11852 Vielleicht, weil die Verwendung eines einzelnen sehr großen Baums anstelle von Wald so viel langsamer ist? Genau wie in neuronalen Netzen können die Netze mit einer verborgenen Schicht bereits alle kontinuierlichen Funktionen approximieren, aber das Hinzufügen von Schichten beschleunigt das Netz. Dies nicht zu sagen ist hier der Fall, aber es könnte sein.
Harto Saarinen
1
@HartoSaarinen: Dies ist eine interessante Art, darüber nachzudenken, aber ich vermute, dass es nicht einfach ist. Es wird angenommen, dass sehr tiefe Bäume schlecht passen und verallgemeinern können (ihre Vorhersagen sind auch ziemlich instabil). Darüber hinaus erfordern tiefere Bäume (in Bezug auf die Geschwindigkeit) exponentiell mehr Teilungen und damit mehr Trainingszeit. (Ein Baum der Tiefe 10 hat höchstens 1023 Teilungen, aber ein Baum der Tiefe 20, 1048575 Teilungen. Viel mehr Arbeit!)
usεr11852 sagt Reinstate Monic
1
@ usεr11852 Ich stimme zu, dass es völlig falsch sein könnte und die Antwort etwas völlig anderes sein könnte. Das macht das Gebiet in diesem Moment so interessant, super viele Dinge, die es zu entdecken gilt!
Harto Saarinen

Antworten:

6

Ja, die gewichtete Summe eines Regressionsbaums entspricht einem einzelnen (tieferen) Regressionsbaum.

Universeller Funktionsapproximator

Ein Regressionsbaum ist ein universeller Funktionsapproximator (siehe zB cstheory ). Die meisten Untersuchungen zu Näherungen universeller Funktionen werden an künstlichen neuronalen Netzen mit einer verborgenen Schicht durchgeführt (lesen Sie diesen großartigen Blog). Die meisten Algorithmen für maschinelles Lernen sind jedoch universelle Funktionsnäherungen.

Als universeller Funktionsapproximator kann jede beliebige Funktion näherungsweise dargestellt werden. Egal wie komplex die Funktion wird, eine universelle Funktionsnäherung kann sie mit jeder gewünschten Genauigkeit darstellen. Im Falle eines Regressionsbaums können Sie sich einen unendlich tiefen Baum vorstellen. Dieser unendlich tiefe Baum kann jedem Punkt im Raum einen beliebigen Wert zuweisen.

Da eine gewichtete Summe eines Regressionsbaums eine andere willkürliche Funktion ist, gibt es einen anderen Regressionsbaum, der diese Funktion darstellt.

Ein Algorithmus zum Erstellen eines solchen Baums

T1T2T2T1T1T2

Das folgende Beispiel zeigt zwei einfache Bäume, denen das Gewicht 0,5 hinzugefügt wurde. Beachten Sie, dass ein Knoten niemals erreicht wird, da es keine Nummer gibt, die kleiner als 3 und größer als 5 ist. Dies zeigt an, dass diese Bäume verbessert werden können, macht sie jedoch nicht ungültig.

Bildbeschreibung hier eingeben

Warum komplexere Algorithmen verwenden?

Eine interessante zusätzliche Frage wurde von @ usεr11852 in den Kommentaren aufgeworfen: Warum sollten wir Boosting-Algorithmen (oder tatsächlich einen komplexen Algorithmus für maschinelles Lernen) verwenden, wenn jede Funktion mit einem einfachen Regressionsbaum modelliert werden kann?

Regressionsbäume können zwar jede Funktion darstellen, dies ist jedoch nur ein Kriterium für einen Algorithmus für maschinelles Lernen. Eine wichtige andere Eigenschaft ist, wie gut sie verallgemeinern. Tiefe Regressionsbäume sind anfällig für Überanpassung, dh sie verallgemeinern sich nicht gut. Ein zufälliger Wald durchschnitt viele tiefe Bäume, um dies zu verhindern.

Pieter
quelle