Lineare Beziehung zwischen erklärenden Variablen bei multipler Regression

10

Ich habe das Kapitel zur multiplen Regression von Datenanalyse und Grafik mit R: Ein beispielbasierter Ansatz gelesen und war etwas verwirrt, als ich herausfand, dass empfohlen wird, nach linearen Beziehungen zwischen erklärenden Variablen (mithilfe eines Streudiagramms) zu suchen, und falls es keine gibt. t überhaupt, die Umwandlung sie , damit sie noch mehr linear aufeinander bezogen werden. Hier einige Auszüge davon:

6.3 Eine Strategie zum Anpassen mehrerer Regressionsmodelle

(...)

Untersuchen Sie die Streudiagramm-Matrix mit allen erklärenden Variablen. (Das Einbeziehen der abhängigen Variablen ist zu diesem Zeitpunkt optional. ) Suchen Sie zunächst in den Darstellungen der erklärenden Variablen gegeneinander nach Hinweisen auf Nichtlinearität.

(...)

Dieser Punkt identifiziert eine Modellsuchstrategie - Suchmodelle, bei denen Regressionsbeziehungen zwischen erklärenden Variablen einer "einfachen" linearen Form folgen . Wenn einige paarweise Diagramme Hinweise auf Nichtlinearität zeigen, sollten Sie die Verwendung von Transformationen in Betracht ziehen, um nahezu lineare Beziehungen zu erhalten . Obwohl es nach dieser Strategie möglicherweise nicht unbedingt möglich ist, die Regressionsbeziehung angemessen zu modellieren, ist dies aus den unten angegebenen Gründen eine gute Strategie, um die Suche zu starten.

(...)

Wenn die Beziehungen zwischen erklärenden Variablen ungefähr linear sind, möglicherweise nach der Transformation, ist es möglich, Diagramme von Prädiktorvariablen gegen die Antwortvariable mit Sicherheit zu interpretieren.

(...)

Es ist möglicherweise nicht möglich, Transformationen einer oder mehrerer der erklärenden Variablen zu finden, die sicherstellen, dass die in den Bedienfeldern gezeigten (paarweisen) Beziehungen linear erscheinen. Dies kann sowohl bei der Interpretation der Diagnosediagramme für jede angepasste Regressionsgleichung als auch bei der Interpretation der Koeffizienten in der angepassten Gleichung zu Problemen führen . Siehe Cook und Weisberg (1999).

Sollte ich mir keine Sorgen über lineare Beziehungen zwischen abhängigen Variablen machen (wegen des Risikos der Multikollinearität), anstatt sie aktiv zu verfolgen? Was sind die Vorteile von annähernd linear verwandten Variablen?

Die Autoren befassen sich später in diesem Kapitel mit dem Thema Multikollinearität, aber diese Empfehlungen scheinen im Widerspruch zur Vermeidung von Multikollinearität zu stehen.

RicardoC
quelle

Antworten:

8

Hier gibt es zwei Punkte:

  1. In der Passage wird empfohlen, IVs nur dann in Linearität umzuwandeln, wenn Hinweise auf Nichtlinearität vorliegen. Nichtlineare Beziehungen zwischen IVs können auch Kollinearität verursachen und zentraler andere Beziehungen erschweren. Ich bin mir nicht sicher, ob ich dem Rat im Buch zustimme, aber es ist nicht albern.

  2. Sicherlich können sehr starke lineare Beziehungen Ursachen für Kollinearität sein, aber hohe Korrelationen sind weder notwendig noch ausreichend, um problematische Kollinearität zu verursachen. Eine gute Methode zur Diagnose der Kollinearität ist der Zustandsindex.

BEARBEITEN als Antwort auf einen Kommentar

Bedingungsindizes werden hier kurz als "Quadratwurzel des maximalen Eigenwerts geteilt durch den minimalen Eigenwert" beschrieben. Es gibt hier im Lebenslauf einige Beiträge, in denen sie und ihre Vorzüge erörtert werden. Die wegweisenden Texte dazu sind zwei Bücher von David Belsley: Konditionierungsdiagnostik und Regressionsdiagnostik (ebenfalls in einer neuen Ausgabe, 2005).

Peter Flom - Monica wieder einsetzen
quelle
1
+1 - gute Antwort, aber können Sie den Bedingungsindex erweitern? Ich habe noch kein zufriedenstellendes Mittel gefunden, um mit Kollinearität in erklärenden Kandidatenvariablen umzugehen.
BGreene
Vielen Dank für die informative Antwort. Könnten Sie bitte näher erläutern, welche anderen Beziehungen durch Nichtlinearität zwischen expl. Variablen? Und wissen Sie jetzt, worüber die Autoren sprechen, wenn sie sagen, dass nichtlineare Beziehungen zwischen expl. Variablen können Probleme bei der Interpretation der Koeffizienten und der diagnostischen Diagramme verursachen?
RicardoC
Ich kann mir momentan kein Beispiel ausdenken, aber ich habe es gesehen. Es kann scheinen, dass es nichtlineare Beziehungen zwischen Y und X gibt
Peter Flom - Reinstate Monica
3

Lineare Beziehungen zwischen jeder der erklärenden Variablen und der abhängigen Variablen stellen auch lineare Beziehungen zwischen den erklärenden Variablen sicher. Das Gegenteil ist natürlich nicht der Fall.

Es ist wahr, dass Transformationen, die eine ungefähre Linearität ergeben sollen, die Kollinearität erhöhen. In Abwesenheit solcher Transformationen ist die Kollinearität jedoch verborgen. Das Bestehen darauf, die Kollinearität so verborgen zu halten, kann zu einer komplizierten und nicht interpretierbaren Regressionsgleichung führen, bei der eine einfache Form der Gleichung verfügbar ist.

Angenommen, dies yliegt nahe an einer linearen Funktion von log(x1), in einem Fall, in dem xBereiche über Werte liegen, die sich um den Faktor 10 oder mehr unterscheiden. Wenn xdann als Regressor verwendet wird, werden nach Möglichkeit andere erklärende Variablen aufgerufen, um die Nichtlinearität in der Beziehung zu x1 zu berücksichtigen. Das Ergebnis kann eine sehr komplizierte Regressionsbeziehung mit nicht interpretierbaren Koeffizienten anstelle einer einfachen Form der Regressionsgleichung sein, die alle verfügbaren Erklärungskräfte erfasst.

Die bizarren Konsequenzen, die sich daraus ergeben können, dass linear verwandte Variablen nicht gefunden und nicht bearbeitet werden können, werden in dem kürzlich erschienenen Artikel gut veranschaulicht, in dem eine Weiblichkeit des Hurrikannameneffekts in Daten zu Todesfällen durch 94 atlantische Hurrikane behauptet wurde, die zwischen 1950 und 2012 über den USA landeten. Siehe http://www.pnas.org/content/111/24/8782.abstract . Die Daten sind als Teil der Zusatzinformationen verfügbar. Beachten Sie, dass die Arbeit mit log(deaths)und unter Verwendung eines linearen Modells der Normatheorie (Rs Funktion lm()) in etwa der Verwendung eines negativen binomialen Regressionsmodells durch Jung et al. Entspricht.

Wenn man regrediert log(E[deaths])auf log(NDAM), es gibt nichts für die minimale Druckgröße, die Weiblichen Variable links ist, und Wechselwirkungen, zu erklären. Die Variable log(NDAM)erscheint nicht NDAMin einer Streudiagrammmatrix als linear mit der minimalen Druckvariablen verbunden. Seine Verteilung ist auch viel weniger schief, viel näher an der Symmetrie.

Jung et al regrediert log(E[deaths])auf NDAM(normalisierte Schaden) sowie die anderen Variablen und Wechselwirkungen. Die Gleichung, die dann entstand, wurde verwendet, um eine Geschichte zu erzählen, in der die Weiblichkeit des Namens eine große Wirkung hat.

Um zu sehen, wie bizarr es ist, NDAMals erklärende Variable in einer Regression zu verwenden, in der die Ergebnisvariable ist log(E[deaths]), Handlung log(deaths+0.5)oder log(deaths+1)dagegen NDAM. Dann wiederholen Sie die Handlung mit log(NDAM)anstelle von NDAM. Der Kontrast ist noch auffälliger, wenn Katrina und Audrey, die Jung et al. Als Ausreißer weggelassen haben, in die Handlung einbezogen werden. Indem Jung et al darauf bestanden, NDAMals erklärende Variable zu verwenden, log(NDAM)verpassten sie die Gelegenheit, eine sehr einfache Form der Regressionsbeziehung zu finden.

Hinweis: Dies E[deaths]ist die Anzahl der vom Modell vorhergesagten Todesfälle.

In den Daten von Jung et al. Können die benötigten Transformationen aus einer Streudiagrammmatrix aller Variablen identifiziert werden. Probieren Sie vielleicht die R-Funktion spm()in der neuesten Version des Fahrzeugpakets für R mit transform=TRUEund (mit deathsals Variable) aus family="yjPower". Oder experimentieren Sie mit den Transformationen, die von einer anfänglichen Streudiagrammmatrix vorgeschlagen werden. Im Allgemeinen kann der bevorzugte Rat darin bestehen, zuerst nach erklärenden Variablen zu suchen, die die Anforderungen an lineare Prädiktoren erfüllen, und sich dann um die Ergebnisvariable zu kümmern, möglicherweise unter Verwendung der Autofunktion invTranPlot().

Siehe zusätzlich zu "Datenanalyse und Grafik mit R", auf die der Fragesteller verwiesen hat:

  • Weisberg: Angewandte lineare Regression. 4th edn, Wiley 2014, S. 185–203.
  • Fox und Weisberg: Ein Begleiter der angewandten Regression. 2nd edn, Sage, 2011, S. 127-148.
John Maindonald
quelle
1

Ich finde diese ganze Passage eher kryptisch, wenn nicht geradezu fragwürdig. Idealerweise möchten Sie, dass Ihre unabhängigen Variablen so unkorreliert wie möglich voneinander sind, um dem Modell inkrementelle und zusätzliche Informationen bei der Schätzung der abhängigen Variablen bereitzustellen. Sie werfen das Problem der Multikollinearität durch hohe Korrelationen zwischen unabhängigen Variablen auf, und Sie haben vollkommen Recht, dieses Problem unter diesen Umständen anzusprechen.

Es ist kritischer, das Streudiagramm und die zugehörige lineare Beziehung zwischen jeder der unabhängigen Variablen und der abhängigen Variablen zu untersuchen, jedoch nicht zwischen den unabhängigen Variablen. Wenn solche Streudiagramme (unabhängig von der X-Achse und abhängig von der Y-Achse) zu einem solchen Zeitpunkt betrachtet werden, besteht möglicherweise die Möglichkeit, die unabhängige Variable zu transformieren, um eine bessere Anpassung zu beobachten, sei es durch ein Protokoll, einen Exponenten oder eine Polynomform.

Sympa
quelle
1
Zu Ihrem zweiten Satz: Wenn unabhängige Variablen völlig unkorreliert wären, würde ein Großteil der Gründe für die Regression strittig werden. Jede bivariate Beziehung eines Prädiktors zu Y würde sich als dieselbe wie die Beziehung zeigen, wenn alle anderen Prädiktoren kontrolliert würden. Warum in diesem Fall kontrollieren?
Rolando2