Sollte man sich Gedanken über Multi-Kollinearität machen, wenn man nichtlineare Modelle verwendet?

13

Angenommen, wir haben ein Binärklassifizierungsproblem mit hauptsächlich kategorialen Merkmalen. Wir verwenden ein nichtlineares Modell (z. B. XGBoost oder Random Forests), um es zu lernen.

  • Sollte man sich immer noch Sorgen um Multi-Kollinearität machen? Warum?
  • Wenn die Antwort auf das oben Gesagte zutrifft, wie sollte man dagegen vorgehen, wenn man bedenkt, dass man diese Art von nichtlinearen Modellen verwendet?
Josh
quelle

Antworten:

7

Multi-Kollinearität ist für bestimmte Modelle kein Problem. Wie zufällige Gesamtstruktur oder Entscheidungsbaum. Wenn zum Beispiel zwei identische Spalten vorhanden sind, wird durch den Entscheidungsbaum / die zufällige Gesamtstruktur bei jeder Aufteilung automatisch eine Spalte gelöscht. Und das Modell wird immer noch gut funktionieren.

Darüber hinaus ist Regularisierung eine Möglichkeit, das Multi-Kollinearitätsproblem zu "beheben". Meine Antwort Regularisierungsmethoden für die logistische Regression enthalten Details.

Haitao Du
quelle
5
Ich denke, dies würde sich verbessern, wenn Sie genau erläutern würden, was das Problem ist, das durch die Regularisierung "behoben" wird.
Matthew Drury
2

Spät zur Party, aber hier ist trotzdem meine Antwort, und es ist "Ja", man sollte sich immer Gedanken über die Kollinearität machen, unabhängig davon, ob das Modell / die Methode linear ist oder nicht oder ob die Hauptaufgabe Vorhersage oder Klassifizierung ist.

Nehmen Sie eine Reihe von linear korrelierten Kovariaten / Merkmalen an, die in der Datenmenge und in Random Forest als Methode vorhanden sind. Offensichtlich kann eine zufällige Auswahl pro Knoten nur (oder meistens) kollineare Merkmale auswählen, die zu einer schlechten Aufteilung führen können / werden, und dies kann wiederholt vorkommen, wodurch die Leistung negativ beeinflusst wird.

Jetzt sind die kollinearen Merkmale möglicherweise weniger aussagekräftig als die anderen (nicht kollinearen) Merkmale und sollten als solche ohnehin für die Eliminierung aus dem Merkmalssatz in Betracht gezogen werden. Nehmen Sie jedoch an, dass die Features in der von RF erstellten Liste "Feature-Wichtigkeit" einen hohen Rang einnehmen. Als solche würden sie in dem Datensatz gehalten, wodurch die Dimensionalität unnötig erhöht würde. In der Praxis überprüfe ich daher immer als Erkundungsschritt (von vielen verwandten) die paarweise Zuordnung der Merkmale, einschließlich der linearen Korrelation.

dnqxt
quelle
Ich glaube, es gibt Fälle, in denen Multi-Kollinearität ignoriert werden kann. Einige der Fälle werden hier diskutiert: statistizons.com/multicollinearity
Dr. Nisha Arora
0
  1. Sollte man sich immer noch Sorgen um Multi-Kollinearität machen? Warum?

Wenn das nichtlineare Modell ein baumbasiertes Modell ist, sollten Sie es nicht ernst nehmen. Unterschiedliche Baummodelle verfügen über unterschiedliche Deal-Methoden, z. B. behält der zufällige Wald beide bei (da sie den Baum unabhängig erstellen und die Funktion für jeden Baum zufällig auswählen), dies hat jedoch keine Auswirkungen auf die Vorhersage-Leistung, selbst wenn Sie die entfernen überflüssig. Aber für xgboost wird jeder von ihnen ausgewählt und bis zum letzten Baumaufbau verwendet.

  1. Wenn die Antwort auf das oben Gesagte zutrifft, wie sollte man dagegen vorgehen, wenn man bedenkt, dass man diese Art von nichtlinearen Modellen verwendet?

Es wird lediglich die Interpretationsbedeutung, also das Entfernen der stark korrelierenden Variablen vorgeschlagen.

wolfe
quelle
-3

Multi-Kollinearität ist immer ein mögliches Problem. Variablen, die Prädiktoren im Modell sind, wirken sich auf die Vorhersage aus, wenn sie linear zusammenhängen (dh wenn Kollinearität vorliegt).

Michael R. Chernick
quelle
1
Vielen Dank. Wenn (1) der Fokus auf der Vorhersageperformance liegt (und nicht auf der Interpretierbarkeit) und (2) auf dem nichtlinearen Modell, würde es Ihnen etwas ausmachen, herauszufinden, warum dies immer noch ein Problem sein kann? (und wie genau würde es sich manifestieren?)
Josh
Diese Variablen, die Prädiktoren im Modell sind, wirken sich auf die Vorhersage aus, wenn sie linear zusammenhängen (dh Kollinearität vorhanden ist).
Michael R. Chernick
1
Wie genau wirkt sich die Vorhersage aus? Übrigens , stats.stackexchange.com/a/138082/99274 , fügen Sie einige Links in Ihre Antwort ein oder stellen Sie sich dem Zorn der Menge, die "dort gewesen ist, hat diese Menge getan".
Carl
7
Da die Klassifizierung so eng mit der Vorhersage zusammenhängt und die Vorhersage tendenziell nicht unter Multikollinearität leidet, ist es wichtig, Ihre Behauptung zu untermauern, dass dies immer ein "mögliches Problem" ist, insbesondere für die in der Frage genannten Modelle. Was für ein Problem wäre das für eine Klassifizierung und warum?
Whuber
12
Ich bin mir ziemlich sicher, dass Sie die Frage stellen. Whuber fragte, warum die Vorhersage unter Multikollinearität leidet, und Sie antworteten im Wesentlichen: "Die Vorhersage leidet unter Multikollinearität, weil die Vorhersage unter Multikollinearität leidet."
Matthew Drury