Aus dem Tutorial des XGBoost geht hervor, dass, wenn jeder Baum wächst, alle Variablen gescannt werden, um ausgewählt zu werden, um Knoten zu teilen, und die mit der maximalen Verstärkungsaufteilung ausgewählt wird. Meine Frage ist also, was wäre, wenn ich dem Datensatz einige Rauschvariablen hinzufügen würde, würden diese Rauschvariablen die Auswahl der Variablen beeinflussen (für jeden wachsenden Baum)? Meine Logik ist, dass diese Rauschvariablen, da sie KEINE maximale Verstärkungsaufteilung ergeben, niemals ausgewählt werden würden, sodass sie das Baumwachstum nicht beeinflussen.
Wenn die Antwort ja lautet, stimmt es dann, dass "je mehr Variablen, desto besser für XGBoost"? Betrachten wir nicht die Trainingszeit.
Wenn die Antwort ja lautet, ist es wahr, dass "wir nicht unwichtige Variablen aus dem Modell herausfiltern müssen".
Danke!
quelle