Kann ich einfach eine von zwei Prädiktorvariablen entfernen, die stark linear korreliert sind?

18

Unter Verwendung des Pearson-Korrelationskoeffizienten habe ich mehrere Variablen, die stark korreliert sind ( und für 2 Variablenpaare in meinem Modell).ρ=0,978ρ=0,989

Der Grund, warum einige der Variablen stark korreliert sind, liegt darin, dass eine Variable bei der Berechnung für eine andere Variable verwendet wird.

Beispiel:

B=V/3000 und E=VD

B und habenEρ=0,989

Kann ich eine der Variablen einfach "wegwerfen"?

TheCloudlessSky
quelle

Antworten:

26

Sowohl B als auch E leiten sich von V ab. B und E sind eindeutig keine wirklich "unabhängigen" Variablen voneinander. Die zugrunde liegende Variable, die hier wirklich wichtig ist, ist V. In diesem Fall sollten Sie wahrscheinlich sowohl B als auch E ignorieren und nur V behalten.

In einer allgemeineren Situation, wenn Sie zwei unabhängige Variablen haben, die sehr stark korreliert sind, sollten Sie auf jeden Fall eine davon entfernen, da Sie auf das Multikollinearitäts-Rätsel stoßen und die Regressionskoeffizienten Ihres Regressionsmodells in Bezug auf die beiden stark korrelierten Variablen unzuverlässig sind. Wenn zwei Variablen im Klartext so stark korreliert sind, geben sie Ihrem Regressionsmodell offensichtlich fast genau die gleichen Informationen. Indem Sie jedoch beide einbeziehen, schwächen Sie das Modell tatsächlich. Sie fügen keine inkrementellen Informationen hinzu. Stattdessen infundieren Sie Ihr Modell mit Rauschen. Keine gute Sache.

Eine Möglichkeit, stark korrelierte Variablen in Ihrem Modell beizubehalten, besteht darin, anstelle der Regression ein PCA-Modell (Principal Component Analysis) zu verwenden. PCA-Modelle sollen Multikollinearität beseitigen. Der Nachteil ist, dass Sie am Ende zwei oder drei Hauptkomponenten in Ihrem Modell haben, die oft nur mathematische Konstrukte sind und in logischer Hinsicht so gut wie unverständlich sind. PCA wird daher häufig als Methode aufgegeben, wenn Sie Ihre Ergebnisse einem externen Publikum wie Management, Aufsichtsbehörden usw. präsentieren müssen. PCA-Modelle erzeugen kryptische Blackboxes, deren Erklärung sehr schwierig ist.

Sympa
quelle
1
(+1) für die Erklärung von PCA.
Steffen
1
Danke, das war eine großartige Erklärung. Ich habe von PCA gehört und gelesen, aber dies ist ein Abschlussprojekt für einen "Regressions" -Kurs, den ich besuche, und der Professor möchte nur, dass wir LR verwenden. Ungeachtet dessen schätze ich die Erklärung von PCA sehr und werde sie wahrscheinlich selbst zum Spaß verwenden.
TheCloudlessSky
3
Unter bestimmten Umständen würden die Empfehlungen in dieser Antwort nicht funktionieren. Was ist zum Beispiel, wenn die wahre Beziehung Y = B + E = V / 3000 + V * D ist? Dann haben die Variablen eine hohe Korrelation aufgrund der Bereiche von V und D im Datensatz - was ein reiner Zufall ist (oder sein kann) -, während das Wegwerfen von B oder E zum falschen Modell führt. Kurz gesagt, "Abhängigkeit" ist im Allgemeinen kein triftiger Grund, um einige Variablen aus einem Modell zu entfernen. Das Einbeziehen stark abhängiger Variablen "schwächt" ein Modell nicht unbedingt. PCA ist nicht immer der Ausweg.
whuber
@whuber, ich bin mir nicht sicher, ob ich deinen Kommentaren zustimme. Ich würde denken, dass "Abhängigkeit" im Allgemeinen ein ziemlich triftiger Grund ist, um einige Variablen aus einem Regressionsmodell zu entfernen. Andernfalls können Ihre Regressionskoeffizienten nicht zuverlässig sein. In dem von Ihnen verwendeten Beispiel, das für die Regression problematisch wäre, besteht eine einfache Lösung darin, den gesamten Ausdruck (V / 3000 + V * D) als einzelne Variable zu verwenden.
Sympa
3
Im Allgemeinen können Sie dies nicht tun , wenn das Modell Beta1 * (V / 3000) + Beta2 * (VD ) ist. Mit anderen Worten, Ihr Vorschlag geht davon aus, dass Sie eine lineare Beschränkung unter den Koeffizienten kennen. Es ist richtig, dass die Regressionskoeffizienten * relativ große VIFs oder Standardfehler aufweisen können, aber mit ausreichenden Datenmengen - oder mit gut ausgewählten Beobachtungen - werden die Schätzungen zuverlässig genug sein. Wir sind uns also einig, dass es ein Problem gibt, und in der Tat stimme ich Ihrer Lösung als eine von mehreren in Betracht zu ziehenden Alternativen zu . Ich stimme nicht zu, dass es so allgemein und notwendig ist, wie Sie es sich vorstellen.
whuber
7

Hier ist eine Antwort aus der Sicht eines Maschinenlerners, obwohl ich befürchte, dass ich von echten Statistikern dafür geschlagen werde.

Kann ich eine der Variablen einfach "wegwerfen"?

Nun, die Frage ist, welchen Modelltyp Sie für die Vorhersage verwenden möchten. Es kommt zB darauf an ...

  • Kann das Modell mit korrelierten Prädiktoren? Obwohl NaiveBayes theoretisch Probleme mit korrelierten Variablen hat, haben Experimente gezeigt, dass es immer noch eine gute Leistung bringen kann.
  • Wie verarbeitet das Modell die Prädiktorvariablen? ZB wird der Unterschied zwischen B und V in einer Wahrscheinlichkeitsdichteschätzung normalisiert, möglicherweise der gleiche für E und V in Abhängigkeit von der Varianz von D (wie bereits gesagt, Euphorie).
  • Welche Verwendungskombination von B und E (eine, keine, beide) liefert das beste Ergebnis, geschätzt durch eine sorgfältige Gegenvalidierung + einen Test an einem Holdout-Set?

Manchmal führen wir maschinelle Lernende sogar eine genetische Optimierung durch, um die beste arithmetische Kombination aus einer Reihe von Prädiktoren zu finden.

steffen
quelle
7

B ist eine lineare Transformation von V. E stellt eine Wechselwirkung zwischen V und D dar. Haben Sie darüber nachgedacht, ein Modell anzugeben, das Y = Intercept + V + D + V: D ist? Wie @ euphoria83 andeutet, ist es wahrscheinlich, dass D nur geringfügig variiert, sodass es Ihr Problem möglicherweise nicht löst. es sollte jedoch zumindest die unabhängigen Beiträge von V und D verdeutlichen. Achten Sie darauf, V und D vorher zu zentrieren.

russellpierce
quelle
4
+1: Dieser Vorschlag ist nicht nur ein guter Ansatz für das betreffende Problem, er zeigt auch, dass das Wegwerfen von Variablen nicht immer der richtige (oder sogar ein guter) Ansatz zur Lösung von Kollinearitätsproblemen ist.
Whuber
0

Wenn D keine Konstante ist, dann sind B und E aufgrund der Variationen in D effektiv zwei verschiedene Variablen. Die hohe Korrelation zeigt an, dass D während der Trainingsdaten praktisch konstant ist. In diesem Fall können Sie entweder B oder E verwerfen.

euphoria83
quelle
1
D=n12N2n2
Wenn Sie B oder E verwerfen und sie als gleichwertig behandeln, behaupten Sie implizit, dass V alles ist, was wirklich zählt. In diesem Fall ist es besser, B im Modell beizubehalten, da die Interpretation klar ist. Wenn Sie weiterhin E beibehalten, D jedoch tatsächlich eine begrenzte Varianz aufweist, würde die Gültigkeit der Interpretation Ihrer Ergebnisse für verschiedene Werte von D.
russellpierce