Nach meinem Verständnis verursachen stark korrelierte Variablen keine Multikollinearitätsprobleme im Random Forest-Modell (Bitte korrigieren Sie mich, wenn ich falsch liege). Wenn ich jedoch zu viele Variablen habe, die ähnliche Informationen enthalten, wird das Modell in dieser Menge zu stark gewichtet als in den anderen?
Beispielsweise gibt es zwei Informationssätze (A, B) mit derselben Vorhersagekraft. Die Variablen , , ... enthalten alle Informationen A, und nur Y enthält Informationen B. Wachsen bei Stichprobenvariablen die meisten Bäume auf Informationen A, sodass die Informationen B nicht vollständig erfasst werden?
multicollinearity
KEINE Auswirkung auf das zufällige Waldmodell gesehen. In der am besten bewerteten Antwort heißt es hier beispielsweise, dass "kein Teil des Zufallsmodell der Gesamtstruktur durch hochkollineare Variablen geschädigt wird". Hat dies irgendeine Gültigkeit?Alter Thread, aber ich stimme einer pauschalen Aussage nicht zu, dass Kollinearität bei zufälligen Gesamtstrukturmodellen kein Problem darstellt. Wenn das Dataset zwei (oder mehr) korrelierte Merkmale aufweist, kann aus Sicht des Modells jedes dieser korrelierten Merkmale als Prädiktor verwendet werden, ohne dass eines gegenüber dem anderen konkret bevorzugt wird.
Sobald jedoch eines von ihnen verwendet wird, wird die Wichtigkeit anderer signifikant verringert, da die Verunreinigung, die sie entfernen können, bereits durch das erste Merkmal entfernt wird.
Infolgedessen haben sie eine geringere gemeldete Bedeutung. Dies ist kein Problem, wenn wir die Feature-Auswahl verwenden möchten, um die Überanpassung zu reduzieren, da es sinnvoll ist, Features zu entfernen, die zumeist von anderen Features dupliziert werden. Bei der Interpretation der Daten kann es jedoch zu der falschen Schlussfolgerung kommen, dass es sich um eine der Variablen handelt ein starker Prädiktor, während die anderen in der gleichen Gruppe unwichtig sind, während sie tatsächlich in Bezug auf ihre Beziehung zur Antwortvariablen sehr eng sind.
Die Auswirkung dieses Phänomens wird durch die zufällige Auswahl von Merkmalen bei jeder Knotenerstellung etwas verringert, im Allgemeinen wird die Auswirkung jedoch nicht vollständig beseitigt.
Die oben meist von hier aus beschnitten: Auswahl guter Features
quelle