Umgang mit korrelierten Regressoren

23

Was ist in einer multiplen linearen Regression mit stark korrelierten Regressoren die beste Strategie? Ist es ein legitimer Ansatz, das Produkt aller korrelierten Regressoren hinzuzufügen?

regression multicollinearity Ηλίας
quelle

1

Es tut mir leid, siehe @ Suncoolsu Antwort wurde gelöscht. Es und die folgenden Kommentare verdeutlichten einen Unterschied zwischen Multikollinearität und schlechter Konditionierung. In einem Kommentar wies Suncoolsu auch darauf hin, wie eine vorläufige Standardisierung bei der polynomialen Regression helfen kann. Wenn es wieder auftauchen sollte, würde ich dafür stimmen ;-).

Whuber

@ Ηλίας: Das Produkt ist wahrscheinlich in vielen Anwendungen instabil. Es kann von vielen Nullen geplagt werden, wenn die einzelnen Regressoren einige Nullen haben; Sein absoluter Wert dürfte stark positiv verzerrt sein und zu einigen hohen Hebelpunkten führen. Dadurch können abgelegene Daten, insbesondere gleichzeitige Ausreißer, verstärkt und ihre Hebelwirkung verstärkt werden. Die Interpretation kann ebenfalls schwierig sein, insbesondere wenn die Regressoren bereits Ausdrücke der ursprünglichen Variablen (wie Protokolle oder Wurzeln) sind.

whuber

13

Hauptkomponenten sind sehr sinnvoll ... mathematisch. Allerdings würde ich in diesem Fall nicht einfach einen mathematischen Trick anwenden und hoffen, dass ich nicht über mein Problem nachdenken muss .

Ich würde empfehlen, ein wenig darüber nachzudenken, welche Art von Prädiktoren ich habe, was die unabhängige Variable ist, warum meine Prädiktoren korreliert sind, ob einige meiner Prädiktoren tatsächlich dieselbe zugrunde liegende Realität messen (wenn ja, ob ich nur mit a arbeiten kann) Einzelmessung und welcher meiner Prädiktoren wäre dafür am besten geeignet), wofür ich die Analyse durchführe - wenn ich nicht an Schlussfolgerungen interessiert bin, sondern nur an Prognosen, dann könnte ich die Dinge tatsächlich so lassen, wie sie sind, solange sie in der Zukunft liegen Prädiktorwerte ähneln denen der Vergangenheit.

S. Kolassa - Setzen Sie Monica wieder ein
quelle

4

Vollständig vereinbart, +1. Aber die Charakterisierung von PCA als "mathematischer Trick" verunglimpft es in unfairer Weise, IMHO. Wenn Sie zustimmen (ich bin nicht sicher, ob Sie dies tun), dass das Summieren oder Mitteln von Gruppen von Regressoren, wie Srikant vorschlägt, akzeptabel wäre, sollte PCA genauso akzeptabel sein und in der Regel die Passform verbessern. Darüber hinaus können die Hauptkomponenten Aufschluss darüber geben, welche Gruppen von Prädiktoren korreliert sind und wie sie korrelieren: Dies ist ein hervorragendes Instrument für das von Ihnen befürwortete Denken.

whuber

2

@whuber, ich sehe und stimme Ihrem Punkt zu, und ich möchte PCA nicht herabsetzen, also auf jeden Fall +1. Ich wollte nur darauf hinweisen, dass das blinde Verwenden von PCA, ohne auf das zugrunde liegende Problem zu schauen und darüber nachzudenken (das hier niemand befürwortet), mir ein schlechtes Gefühl hinterlassen würde ...

S. Kolassa - Wiedereinsetzung von Monica 13.10.10

11

Sie können Hauptkomponenten oder Gratregression verwenden, um dieses Problem zu beheben. Wenn Sie andererseits zwei Variablen haben, die stark genug korreliert sind, um Probleme mit der Parameterschätzung zu verursachen, können Sie mit ziemlicher Sicherheit eine der beiden Variablen verwerfen, ohne viel an Vorhersage zu verlieren - da die beiden Variablen dieselben Informationen enthalten . Das funktioniert natürlich nur, wenn das Problem auf zwei stark korrelierte unabhängige Personen zurückzuführen ist. Wenn das Problem mehr als zwei Variablen umfasst, die nahezu kollinear sind (von denen zwei möglicherweise nur mäßige Korrelationen aufweisen), benötigen Sie wahrscheinlich eine der anderen Methoden.

Brett
quelle

2

(+1) Nun ist das Problem , dass der OP nicht angeben , wie viele Variablen geben Sie das Modell, weil im Fall sie zahlreich sind , könnte es besser sein , sowohl Schrumpfung zu tun und variable Auswahl, zB durch das elasticnet Kriterium (die Kombination ist von Lasso und Ridge Strafen).

Chl

3

Hier ist ein weiterer Gedanke, der von Stephans Antwort inspiriert ist :

Wenn einige Ihrer korrelierten Regressoren bedeutungsvoll miteinander verwandt sind (z. B. unterschiedliche Intelligenzmaße, z. B. verbal, mathematisch usw.), können Sie eine einzelne Variable erstellen, die dieselbe Variable mit einer der folgenden Techniken misst:

Summe der Regressoren (angemessen, wenn die Regressoren Bestandteile eines Ganzen sind, z. B. verbaler IQ + mathematischer IQ = Gesamt-IQ)
Durchschnitt der Regressoren (angemessen, wenn die Regressoren dasselbe zugrunde liegende Konstrukt messen, z. B. Größe des linken Schuhs, Größe des rechten Schuhs, um die Länge der Füße zu messen)
Faktoranalyse (um Messfehler zu berücksichtigen und einen latenten Faktor zu extrahieren)

Sie können dann alle korrelierten Regressoren löschen und durch die eine Variable ersetzen, die aus der obigen Analyse hervorgeht.

Gemeinschaft
quelle

1

Dies ist sinnvoll, wenn alle Regressoren auf der gleichen Skala gemessen werden. In der Psychologie werden verschiedene Teilskalen häufig auf verschiedenen Skalen gemessen (und immer noch korreliert), daher wäre eine gewichtete Summe oder ein gewichteter Durchschnitt (der hier wirklich derselbe ist) angemessen. Und natürlich könnte man PCA als eine solche Gewichtung ansehen, indem man Achsen maximaler Varianz berechnet.

S. Kolassa - Wiedereinsetzung von Monica

2

Ich wollte fast dasselbe sagen wie Stephan Kolassa (habe also seine Antwort positiv bewertet). Ich möchte nur hinzufügen, dass Multikollinearität manchmal auf die Verwendung umfangreicher Variablen zurückzuführen ist, die alle in hohem Maße mit einem gewissen Maß an Größe korrelieren, und dass die Dinge durch die Verwendung intensiver Variablen verbessert werden können, dh indem alles durch ein gewisses Maß an Größe geteilt wird. Wenn Ihre Einheiten beispielsweise Länder sind, können Sie je nach Kontext nach Bevölkerung, Fläche oder BSP aufteilen.

Oh - und um den zweiten Teil der ursprünglichen Frage zu beantworten: Ich kann mir keine Situation vorstellen, wenn ich das Produkt aller korrelierten Regressoren addiere, wäre das eine gute Idee. Wie würde es helfen? Was würde es bedeuten?

ein Stop
quelle

Meine ursprüngliche Idee war, unter Berücksichtigung der paarweisen Interaktion der Regressoren hinzuzufügen

Ηλίας

Oft ist es eine gute Idee, die paarweise Interaktion zu berücksichtigen. Aber nicht alle: Sie müssen überlegen, was Sinn macht!

kjetil b halvorsen

1

Ich bin kein Experte in diesem Bereich, aber mein erster Gedanke wäre, eine Hauptkomponentenanalyse für die Prädiktorvariablen durchzuführen und dann die resultierenden Hauptkomponenten zu verwenden, um Ihre abhängige Variable vorherzusagen.

Mike Lawrence
quelle

k

$k$

k

$k$

p

$p$

@chl Guter Punkt. Da es sich bei den Hauptkomponenten jedoch um lineare Kombinationen handelt, ist es unkompliziert (wenn auch manchmal schwierig), das angepasste Regressionsmodell (= eine lineare Transformation) mit der Projektion auf die Komponenten (= eine andere lineare Transformation) zu erstellen, um ein interpretierbares lineares Modell zu erhalten alle ursprünglichen Variablen einbeziehen. Dies ähnelt in gewisser Weise Orthogonalisierungstechniken. Beachten Sie auch, dass die neuesten Vorschläge von Srikant (Summe oder Durchschnitt der Regressoren) sich im Wesentlichen dem Haupteigenvektor annähern, jedoch ähnliche Erklärungsschwierigkeiten hervorrufen.

whuber

@whuber Ja, ich stimme beiden deiner Punkte zu. Ich habe vielfach PLS-Regression und CCA verwendet, daher müssen wir uns in diesem Fall auf beiden Seiten mit linearen Kombinationen auseinandersetzen (maximale Kovarianz oder Korrelationskriterien). Bei einer großen Anzahl von Prädiktoren ist die Interpretation der kanonischen Vektoren schmerzhaft, daher betrachten wir nur die am meisten beitragenden Variablen. Jetzt kann ich mir vorstellen, dass es nicht so viele Prädiktoren gibt, sodass alle Ihre Argumente (@Stephan, @Mike) Sinn ergeben.

Chl

-1

$X$

x_{i j}^{s t a n d a r d i z e d} = \frac{x_{i j} - \bar{x_{. j}}}{s_{j}}

$x_{ij}^{standardized}=\frac {x_{ij}-\overline{x_{.j}}} {s_{j}}$

Dies ist kein Mittel, aber definitiv ein Schritt in die richtige Richtung.

suncoolsu
quelle

8

Lineare Transformationen (wie diese) ändern niemals Korrelationskoeffizienten. Der Punkt zur Standardisierung ist die Verbesserung der Konditionierung der normalen Matrix.

whuber

1

Die Standardisierung der Variablen wird die Korrelationen zwischen den unabhängigen Variablen nicht beeinflussen und wird den Korrelationseffekt in keiner Weise "verringern", die ich mir in Bezug auf dieses Problem vorstellen kann.

Brett

2

@Brett, ein typisches Beispiel, bei dem Standardisierung hilft, ist die Polynom-Regression . Es wird immer empfohlen, die Regressoren zu standardisieren. Durch die Standardisierung wird die Korrelationsmatrix nicht geändert, aber die Var-Cov-Matrix (die jetzt die Korrelationsmatrix ist) verhält sich gut.

Suncoolsu

Einverstanden. Das Zentrieren ist nützlich, wenn Terme höherer Ordnung wie Polynome oder Interaktionsterme eingegeben werden. Dies scheint hier nicht der Fall zu sein und wird sonst bei dem Problem der korrelierten Prädiktoren nicht helfen.

Brett

Ich habe es gelöscht, weil ich die Leute nicht mit falschen Antworten verwechseln wollte. Wahrscheinlich haben die Moderatoren es wieder aufgegriffen.

Suncoolsu

Umgang mit korrelierten Regressoren

Antworten: