Ich habe das Kapitel zur multiplen Regression von Datenanalyse und Grafik mit R: Ein beispielbasierter Ansatz gelesen und war etwas verwirrt, als ich herausfand, dass empfohlen wird, nach linearen Beziehungen zwischen erklärenden Variablen (mithilfe eines Streudiagramms) zu suchen, und falls es keine gibt. t überhaupt, die Umwandlung sie , damit sie noch mehr linear aufeinander bezogen werden. Hier einige Auszüge davon:
6.3 Eine Strategie zum Anpassen mehrerer Regressionsmodelle
(...)
Untersuchen Sie die Streudiagramm-Matrix mit allen erklärenden Variablen. (Das Einbeziehen der abhängigen Variablen ist zu diesem Zeitpunkt optional. ) Suchen Sie zunächst in den Darstellungen der erklärenden Variablen gegeneinander nach Hinweisen auf Nichtlinearität.
(...)
Dieser Punkt identifiziert eine Modellsuchstrategie - Suchmodelle, bei denen Regressionsbeziehungen zwischen erklärenden Variablen einer "einfachen" linearen Form folgen . Wenn einige paarweise Diagramme Hinweise auf Nichtlinearität zeigen, sollten Sie die Verwendung von Transformationen in Betracht ziehen, um nahezu lineare Beziehungen zu erhalten . Obwohl es nach dieser Strategie möglicherweise nicht unbedingt möglich ist, die Regressionsbeziehung angemessen zu modellieren, ist dies aus den unten angegebenen Gründen eine gute Strategie, um die Suche zu starten.
(...)
Wenn die Beziehungen zwischen erklärenden Variablen ungefähr linear sind, möglicherweise nach der Transformation, ist es möglich, Diagramme von Prädiktorvariablen gegen die Antwortvariable mit Sicherheit zu interpretieren.
(...)
Es ist möglicherweise nicht möglich, Transformationen einer oder mehrerer der erklärenden Variablen zu finden, die sicherstellen, dass die in den Bedienfeldern gezeigten (paarweisen) Beziehungen linear erscheinen. Dies kann sowohl bei der Interpretation der Diagnosediagramme für jede angepasste Regressionsgleichung als auch bei der Interpretation der Koeffizienten in der angepassten Gleichung zu Problemen führen . Siehe Cook und Weisberg (1999).
Sollte ich mir keine Sorgen über lineare Beziehungen zwischen abhängigen Variablen machen (wegen des Risikos der Multikollinearität), anstatt sie aktiv zu verfolgen? Was sind die Vorteile von annähernd linear verwandten Variablen?
Die Autoren befassen sich später in diesem Kapitel mit dem Thema Multikollinearität, aber diese Empfehlungen scheinen im Widerspruch zur Vermeidung von Multikollinearität zu stehen.
quelle
Lineare Beziehungen zwischen jeder der erklärenden Variablen und der abhängigen Variablen stellen auch lineare Beziehungen zwischen den erklärenden Variablen sicher. Das Gegenteil ist natürlich nicht der Fall.
Es ist wahr, dass Transformationen, die eine ungefähre Linearität ergeben sollen, die Kollinearität erhöhen. In Abwesenheit solcher Transformationen ist die Kollinearität jedoch verborgen. Das Bestehen darauf, die Kollinearität so verborgen zu halten, kann zu einer komplizierten und nicht interpretierbaren Regressionsgleichung führen, bei der eine einfache Form der Gleichung verfügbar ist.
Angenommen, dies
y
liegt nahe an einer linearen Funktion vonlog(x1)
, in einem Fall, in demx
Bereiche über Werte liegen, die sich um den Faktor 10 oder mehr unterscheiden. Wennx
dann als Regressor verwendet wird, werden nach Möglichkeit andere erklärende Variablen aufgerufen, um die Nichtlinearität in der Beziehung zu x1 zu berücksichtigen. Das Ergebnis kann eine sehr komplizierte Regressionsbeziehung mit nicht interpretierbaren Koeffizienten anstelle einer einfachen Form der Regressionsgleichung sein, die alle verfügbaren Erklärungskräfte erfasst.Die bizarren Konsequenzen, die sich daraus ergeben können, dass linear verwandte Variablen nicht gefunden und nicht bearbeitet werden können, werden in dem kürzlich erschienenen Artikel gut veranschaulicht, in dem eine Weiblichkeit des Hurrikannameneffekts in Daten zu Todesfällen durch 94 atlantische Hurrikane behauptet wurde, die zwischen 1950 und 2012 über den USA landeten. Siehe http://www.pnas.org/content/111/24/8782.abstract . Die Daten sind als Teil der Zusatzinformationen verfügbar. Beachten Sie, dass die Arbeit mit
log(deaths)
und unter Verwendung eines linearen Modells der Normatheorie (Rs Funktionlm()
) in etwa der Verwendung eines negativen binomialen Regressionsmodells durch Jung et al. Entspricht.Wenn man regrediert
log(E[deaths])
auflog(NDAM)
, es gibt nichts für die minimale Druckgröße, die Weiblichen Variable links ist, und Wechselwirkungen, zu erklären. Die Variablelog(NDAM)
erscheint nichtNDAM
in einer Streudiagrammmatrix als linear mit der minimalen Druckvariablen verbunden. Seine Verteilung ist auch viel weniger schief, viel näher an der Symmetrie.Jung et al regrediert
log(E[deaths])
aufNDAM
(normalisierte Schaden) sowie die anderen Variablen und Wechselwirkungen. Die Gleichung, die dann entstand, wurde verwendet, um eine Geschichte zu erzählen, in der die Weiblichkeit des Namens eine große Wirkung hat.Um zu sehen, wie bizarr es ist,
NDAM
als erklärende Variable in einer Regression zu verwenden, in der die Ergebnisvariable istlog(E[deaths])
, Handlunglog(deaths+0.5)
oderlog(deaths+1)
dagegenNDAM
. Dann wiederholen Sie die Handlung mitlog(NDAM)
anstelle vonNDAM
. Der Kontrast ist noch auffälliger, wenn Katrina und Audrey, die Jung et al. Als Ausreißer weggelassen haben, in die Handlung einbezogen werden. Indem Jung et al darauf bestanden,NDAM
als erklärende Variable zu verwenden,log(NDAM)
verpassten sie die Gelegenheit, eine sehr einfache Form der Regressionsbeziehung zu finden.Hinweis: Dies
E[deaths]
ist die Anzahl der vom Modell vorhergesagten Todesfälle.In den Daten von Jung et al. Können die benötigten Transformationen aus einer Streudiagrammmatrix aller Variablen identifiziert werden. Probieren Sie vielleicht die R-Funktion
spm()
in der neuesten Version des Fahrzeugpakets für R mittransform=TRUE
und (mitdeaths
als Variable) ausfamily="yjPower"
. Oder experimentieren Sie mit den Transformationen, die von einer anfänglichen Streudiagrammmatrix vorgeschlagen werden. Im Allgemeinen kann der bevorzugte Rat darin bestehen, zuerst nach erklärenden Variablen zu suchen, die die Anforderungen an lineare Prädiktoren erfüllen, und sich dann um die Ergebnisvariable zu kümmern, möglicherweise unter Verwendung der AutofunktioninvTranPlot()
.Siehe zusätzlich zu "Datenanalyse und Grafik mit R", auf die der Fragesteller verwiesen hat:
quelle
Ich finde diese ganze Passage eher kryptisch, wenn nicht geradezu fragwürdig. Idealerweise möchten Sie, dass Ihre unabhängigen Variablen so unkorreliert wie möglich voneinander sind, um dem Modell inkrementelle und zusätzliche Informationen bei der Schätzung der abhängigen Variablen bereitzustellen. Sie werfen das Problem der Multikollinearität durch hohe Korrelationen zwischen unabhängigen Variablen auf, und Sie haben vollkommen Recht, dieses Problem unter diesen Umständen anzusprechen.
Es ist kritischer, das Streudiagramm und die zugehörige lineare Beziehung zwischen jeder der unabhängigen Variablen und der abhängigen Variablen zu untersuchen, jedoch nicht zwischen den unabhängigen Variablen. Wenn solche Streudiagramme (unabhängig von der X-Achse und abhängig von der Y-Achse) zu einem solchen Zeitpunkt betrachtet werden, besteht möglicherweise die Möglichkeit, die unabhängige Variable zu transformieren, um eine bessere Anpassung zu beobachten, sei es durch ein Protokoll, einen Exponenten oder eine Polynomform.
quelle