Wenn wir einen ausgewachsenen Entscheidungsbaum (dh einen nicht beschnittenen Entscheidungsbaum) betrachten, weist er eine hohe Varianz und eine geringe Verzerrung auf.
Bagging und Random Forests verwenden diese Modelle mit hoher Varianz und aggregieren sie, um die Varianz zu verringern und damit die Vorhersagegenauigkeit zu verbessern. Sowohl Bagging als auch Random Forests verwenden Bootstrap-Stichproben. Wie unter "Elemente des statistischen Lernens" beschrieben, erhöht dies die Verzerrung im einzelnen Baum.
Da die Random Forest-Methode die Aufteilung der zulässigen Variablen in jeden Knoten einschränkt, wird die Verzerrung für einen einzelnen Random Forest-Baum noch weiter erhöht.
Somit wird die Vorhersagegenauigkeit nur erhöht, wenn die Zunahme der Vorspannung der einzelnen Bäume in Bagging und Random Forests die Varianzreduzierung nicht "überstrahlt".
Dies führt mich zu den beiden folgenden Fragen: 1) Ich weiß, dass wir beim Bootstrap-Sampling (fast immer) einige der gleichen Beobachtungen im Bootstrap-Sample haben werden. Aber warum führt dies zu einer Zunahme der Verzerrung der einzelnen Bäume in Bagging / Random Forests? 2) Warum führt die Begrenzung der verfügbaren Variablen, auf die bei jeder Aufteilung aufgeteilt werden soll, zu einer höheren Verzerrung der einzelnen Bäume in Random Forests?