Warum hat ein Sackbaum / zufälliger Waldbaum eine höhere Tendenz als ein einzelner Entscheidungsbaum?

11

Wenn wir einen ausgewachsenen Entscheidungsbaum (dh einen nicht beschnittenen Entscheidungsbaum) betrachten, weist er eine hohe Varianz und eine geringe Verzerrung auf.

Bagging und Random Forests verwenden diese Modelle mit hoher Varianz und aggregieren sie, um die Varianz zu verringern und damit die Vorhersagegenauigkeit zu verbessern. Sowohl Bagging als auch Random Forests verwenden Bootstrap-Stichproben. Wie unter "Elemente des statistischen Lernens" beschrieben, erhöht dies die Verzerrung im einzelnen Baum.

Da die Random Forest-Methode die Aufteilung der zulässigen Variablen in jeden Knoten einschränkt, wird die Verzerrung für einen einzelnen Random Forest-Baum noch weiter erhöht.

Somit wird die Vorhersagegenauigkeit nur erhöht, wenn die Zunahme der Vorspannung der einzelnen Bäume in Bagging und Random Forests die Varianzreduzierung nicht "überstrahlt".

Dies führt mich zu den beiden folgenden Fragen: 1) Ich weiß, dass wir beim Bootstrap-Sampling (fast immer) einige der gleichen Beobachtungen im Bootstrap-Sample haben werden. Aber warum führt dies zu einer Zunahme der Verzerrung der einzelnen Bäume in Bagging / Random Forests? 2) Warum führt die Begrenzung der verfügbaren Variablen, auf die bei jeder Aufteilung aufgeteilt werden soll, zu einer höheren Verzerrung der einzelnen Bäume in Random Forests?

C. Refsgaard
quelle

Antworten:

5

Ich werde die Antwort auf 1) von Kunlun akzeptieren, aber um diesen Fall abzuschließen, werde ich hier die Schlussfolgerungen zu den beiden Fragen geben, die ich in meiner Arbeit getroffen habe (die beide von meinem Betreuer akzeptiert wurden):

1) Mehr Daten führen zu besseren Modellen, und da wir nur einen Teil der gesamten Trainingsdaten zum Trainieren des Modells verwenden (Bootstrap), tritt in jedem Baum eine höhere Verzerrung auf (Kopie aus der Antwort von Kunlun).

2) Im Random Forests-Algorithmus begrenzen wir die Anzahl der Variablen, auf die bei jeder Aufteilung aufgeteilt werden soll - dh wir begrenzen die Anzahl der Variablen, mit denen unsere Daten erklärt werden sollen. Wiederum tritt in jedem Baum eine höhere Vorspannung auf.

Schlussfolgerung: Beide Situationen beschränken unsere Fähigkeit, die Population zu erklären: Zuerst begrenzen wir die Anzahl der Beobachtungen, dann begrenzen wir die Anzahl der Variablen, auf die bei jeder Aufteilung aufgeteilt werden soll. Beide Einschränkungen führen zu einer höheren Verzerrung in jedem Baum, aber häufig überstrahlt die Varianzreduzierung im Modell die Verzerrungserhöhung in jedem Baum, und daher erzeugen Bagging und Random Forests tendenziell ein besseres Modell als nur einen einzelnen Entscheidungsbaum.

C. Refsgaard
quelle
-1

Ihre Fragen sind ziemlich einfach. 1) Mehr Daten führen zu einem besseren Modell, da Sie nur einen Teil der gesamten Trainingsdaten zum Trainieren Ihres Modells (Bootstrap) verwenden, ist eine höhere Verzerrung sinnvoll. 2) Mehr Teilungen bedeuten tiefere Bäume oder reinere Knoten. Dies führt typischerweise zu einer hohen Varianz und einer geringen Vorspannung. Wenn Sie die Aufteilung begrenzen, verringern Sie die Varianz und die Vorspannung.

Kunlun
quelle
4
Ich kaufe das Argument für 1) nicht ganz, da jedes Bootstrap-Beispiel gleich wahrscheinlich ist und sich die Tendenz auf das Verhalten des durchschnittlichen Modells bezieht. Es scheint subtiler zu sein. Ich denke auch nicht, dass 2) die gestellte Frage anspricht. Das Poster bedeutet nicht "Splits begrenzen" wie bei "Flachere Bäume wachsen lassen".
Matthew Drury