Angenommen, wir haben ein Binärklassifizierungsproblem mit hauptsächlich kategorialen Merkmalen. Wir verwenden ein nichtlineares Modell (z. B. XGBoost oder Random Forests), um es zu lernen.
- Sollte man sich immer noch Sorgen um Multi-Kollinearität machen? Warum?
- Wenn die Antwort auf das oben Gesagte zutrifft, wie sollte man dagegen vorgehen, wenn man bedenkt, dass man diese Art von nichtlinearen Modellen verwendet?
Spät zur Party, aber hier ist trotzdem meine Antwort, und es ist "Ja", man sollte sich immer Gedanken über die Kollinearität machen, unabhängig davon, ob das Modell / die Methode linear ist oder nicht oder ob die Hauptaufgabe Vorhersage oder Klassifizierung ist.
Nehmen Sie eine Reihe von linear korrelierten Kovariaten / Merkmalen an, die in der Datenmenge und in Random Forest als Methode vorhanden sind. Offensichtlich kann eine zufällige Auswahl pro Knoten nur (oder meistens) kollineare Merkmale auswählen, die zu einer schlechten Aufteilung führen können / werden, und dies kann wiederholt vorkommen, wodurch die Leistung negativ beeinflusst wird.
Jetzt sind die kollinearen Merkmale möglicherweise weniger aussagekräftig als die anderen (nicht kollinearen) Merkmale und sollten als solche ohnehin für die Eliminierung aus dem Merkmalssatz in Betracht gezogen werden. Nehmen Sie jedoch an, dass die Features in der von RF erstellten Liste "Feature-Wichtigkeit" einen hohen Rang einnehmen. Als solche würden sie in dem Datensatz gehalten, wodurch die Dimensionalität unnötig erhöht würde. In der Praxis überprüfe ich daher immer als Erkundungsschritt (von vielen verwandten) die paarweise Zuordnung der Merkmale, einschließlich der linearen Korrelation.
quelle
Wenn das nichtlineare Modell ein baumbasiertes Modell ist, sollten Sie es nicht ernst nehmen. Unterschiedliche Baummodelle verfügen über unterschiedliche Deal-Methoden, z. B. behält der zufällige Wald beide bei (da sie den Baum unabhängig erstellen und die Funktion für jeden Baum zufällig auswählen), dies hat jedoch keine Auswirkungen auf die Vorhersage-Leistung, selbst wenn Sie die entfernen überflüssig. Aber für xgboost wird jeder von ihnen ausgewählt und bis zum letzten Baumaufbau verwendet.
Es wird lediglich die Interpretationsbedeutung, also das Entfernen der stark korrelierenden Variablen vorgeschlagen.
quelle
Multi-Kollinearität ist immer ein mögliches Problem. Variablen, die Prädiktoren im Modell sind, wirken sich auf die Vorhersage aus, wenn sie linear zusammenhängen (dh wenn Kollinearität vorliegt).
quelle