Sowohl B als auch E leiten sich von V ab. B und E sind eindeutig keine wirklich "unabhängigen" Variablen voneinander. Die zugrunde liegende Variable, die hier wirklich wichtig ist, ist V. In diesem Fall sollten Sie wahrscheinlich sowohl B als auch E ignorieren und nur V behalten.
In einer allgemeineren Situation, wenn Sie zwei unabhängige Variablen haben, die sehr stark korreliert sind, sollten Sie auf jeden Fall eine davon entfernen, da Sie auf das Multikollinearitäts-Rätsel stoßen und die Regressionskoeffizienten Ihres Regressionsmodells in Bezug auf die beiden stark korrelierten Variablen unzuverlässig sind. Wenn zwei Variablen im Klartext so stark korreliert sind, geben sie Ihrem Regressionsmodell offensichtlich fast genau die gleichen Informationen. Indem Sie jedoch beide einbeziehen, schwächen Sie das Modell tatsächlich. Sie fügen keine inkrementellen Informationen hinzu. Stattdessen infundieren Sie Ihr Modell mit Rauschen. Keine gute Sache.
Eine Möglichkeit, stark korrelierte Variablen in Ihrem Modell beizubehalten, besteht darin, anstelle der Regression ein PCA-Modell (Principal Component Analysis) zu verwenden. PCA-Modelle sollen Multikollinearität beseitigen. Der Nachteil ist, dass Sie am Ende zwei oder drei Hauptkomponenten in Ihrem Modell haben, die oft nur mathematische Konstrukte sind und in logischer Hinsicht so gut wie unverständlich sind. PCA wird daher häufig als Methode aufgegeben, wenn Sie Ihre Ergebnisse einem externen Publikum wie Management, Aufsichtsbehörden usw. präsentieren müssen. PCA-Modelle erzeugen kryptische Blackboxes, deren Erklärung sehr schwierig ist.
Hier ist eine Antwort aus der Sicht eines Maschinenlerners, obwohl ich befürchte, dass ich von echten Statistikern dafür geschlagen werde.
Kann ich eine der Variablen einfach "wegwerfen"?
Nun, die Frage ist, welchen Modelltyp Sie für die Vorhersage verwenden möchten. Es kommt zB darauf an ...
Manchmal führen wir maschinelle Lernende sogar eine genetische Optimierung durch, um die beste arithmetische Kombination aus einer Reihe von Prädiktoren zu finden.
quelle
B ist eine lineare Transformation von V. E stellt eine Wechselwirkung zwischen V und D dar. Haben Sie darüber nachgedacht, ein Modell anzugeben, das Y = Intercept + V + D + V: D ist? Wie @ euphoria83 andeutet, ist es wahrscheinlich, dass D nur geringfügig variiert, sodass es Ihr Problem möglicherweise nicht löst. es sollte jedoch zumindest die unabhängigen Beiträge von V und D verdeutlichen. Achten Sie darauf, V und D vorher zu zentrieren.
quelle
Wenn D keine Konstante ist, dann sind B und E aufgrund der Variationen in D effektiv zwei verschiedene Variablen. Die hohe Korrelation zeigt an, dass D während der Trainingsdaten praktisch konstant ist. In diesem Fall können Sie entweder B oder E verwerfen.
quelle