Wann werden Prädiktorvariablen bei multipler Regression transformiert?

10

Ich nehme derzeit an meiner ersten Klasse für angewandte lineare Regression teil und habe Probleme mit der Transformation von Prädiktorvariablen bei der multiplen linearen Regression. Der Text, den ich verwende, Kutner et al. "Angewandte lineare statistische Modelle", scheint die Frage, die ich habe, nicht abzudecken. (abgesehen davon, dass es eine Box-Cox-Methode zur Transformation mehrerer Prädiktoren gibt).

Welche Bedingungen möchte man mit einer Antwortvariablen und mehreren Prädiktorvariablen für jede Prädiktorvariable erfüllen? Ich verstehe, dass wir letztendlich nach Konstanz der Fehlervarianz und normalverteilten Fehlern suchen (zumindest in den Techniken, die mir bisher beigebracht wurden). Ich habe viele Übungen zurückkommen lassen, wo die Lösung als Beispiel war y ~ x1 + (1/x2) + log(x3), wo ein oder mehrere Prädiktoren wurden transformiert.

Ich verstand die Gründe unter einfacher linearer Regression, da es einfach war, y ~ x1 und die damit verbundenen Diagnosen (qq-Diagramme von Residuen, Residuen gegen y, Residuen gegen x usw.) zu betrachten und zu testen, ob y ~ log ( x1) passen besser zu unseren Annahmen.

Gibt es einen guten Ort, um zu verstehen, wann ein Prädiktor in Gegenwart vieler Prädiktoren transformiert werden muss?

Vielen Dank im Voraus. Matt

Matt
quelle

Antworten:

3

Ich nehme Ihre Frage zu sein: Wie beurteilen Sie erkennen , wenn die Bedingungen , die Transformationen geeigneten exist machen, und nicht als das, was die logischen Bedingungen sind . Es ist immer schön, Datenanalysen mit Exploration zu buchen, insbesondere mit grafischer Datenexploration. (Es können verschiedene Tests durchgeführt werden, aber ich werde mich hier auf die grafische EDA konzentrieren.)

Kernel-Dichtediagramme sind besser als Histogramme, um einen ersten Überblick über die univariate Verteilung jeder Variablen zu erhalten. Bei mehreren Variablen kann eine Streudiagrammmatrix nützlich sein. Lowess ist auch zu Beginn immer ratsam. Dies gibt Ihnen einen schnellen und schmutzigen Blick darauf, ob die Beziehungen ungefähr linear sind. Das Autopaket von John Fox kombiniert diese:

library(car)
scatterplot.matrix(data)

Stellen Sie sicher, dass Ihre Variablen als Spalten vorhanden sind. Wenn Sie viele Variablen haben, können die einzelnen Diagramme klein sein. Maximieren Sie das Diagrammfenster, und die Streudiagramme sollten groß genug sein, um die Diagramme auszuwählen, die Sie einzeln untersuchen möchten, und dann einzelne Diagramme zu erstellen. Z.B,

windows()
plot(density(X[,3]))
rug(x[,3])
windows()
plot(x[,3], y)
lines(lowess(y~X[,3]))

Nach dem Anpassen eines multiplen Regressionsmodells sollten Sie Ihre Daten weiterhin zeichnen und überprüfen, genau wie bei der einfachen linearen Regression. QQ-Diagramme für Residuen sind genauso notwendig, und Sie können nach einem ähnlichen Verfahren wie zuvor eine Streudiagramm-Matrix Ihrer Residuen gegen Ihre Prädiktoren erstellen.

windows()
qq.plot(model$residuals)
windows()
scatterplot.matrix(cbind(model$residuals,X))

Wenn etwas verdächtig aussieht, zeichnen Sie es einzeln und fügen Sie es abline(h=0)als visuelle Anleitung hinzu. Wenn Sie eine Interaktion haben, können Sie eine X [, 1] * X [, 2] -Variable erstellen und die Residuen daraufhin untersuchen. Ebenso können Sie ein Streudiagramm von Residuen gegen X [, 3] ^ 2 usw. erstellen. Andere Arten von Plots als Residuen gegen x, die Sie mögen, können auf ähnliche Weise erstellt werden. Beachten Sie, dass diese alle die anderen x-Dimensionen ignorieren, die nicht gezeichnet werden. Wenn Ihre Daten gruppiert sind (dh aus einem Experiment), können Sie anstelle von / zusätzlich zu Randdiagrammen Teildiagramme erstellen.

Hoffentlich hilft das.

gung - Monica wieder einsetzen
quelle
2
Ich würde einen direkteren Ansatz empfehlen: Verwenden Sie Regressionssplines, um die Auswirkungen von Prädiktoren zu modellieren, um (1) keine Linearität anzunehmen und (2) alle Transformationen gleichzeitig zu schätzen. Dies ähnelt einer quadratischen Regression, bei der ein quadratischer Term für alle Prädiktoren hinzugefügt wird. Bei eingeschränkten kubischen Splines fügt man dem Modell beispielsweise eine oder mehrere nichtlineare Basisfunktionen für jeden Prädiktor hinzu, von dem nicht bekannt ist, dass er linear arbeitet.
Frank Harrell
@Frank Ich mag oft eingeschränkte kubische Splines. Das einzig Negative ist die Interpretation, die etwas knifflig ist und meine Kunden oft abschreckt. Das Hinzufügen eines Polynomterms (nach dem Zentrieren) scheint interpretierbarer zu sein
Peter Flom - Reinstate Monica
Vielen Dank für die Eingabe, ich schätze es sehr. Ich denke, Sie geben mir derzeit zu viel Anerkennung. Meine Frage dreht sich eigentlich darum, worauf bei einzelnen Prädiktoren zu achten ist, um zu wissen, wann / ob eine Transformation anwendbar ist. Wenn ich beispielsweise ein streng additives Modell mit 3 Prädiktoren habe, wie würde ich dann vorgehen, um eine geeignete Transformation zu bestimmen? Streben wir im Fall mehrerer Prädiktoren im Allgemeinen nach denselben Prinzipien, nach denen wir bei der einfachen linearen Regression suchen? (dh günstige Residuen gegenüber vorhergesagtem Plot und qqplot von Residuen).
Matt
1
Peter-Regressions-Splines sind nicht viel komplexer als quadratische. Wer weiß, wie man den Alterskoeffizienten interpretiert, wenn das Alter ^ 2 überhaupt im Modell ist? Und ich sehe nicht, wo das Zentrieren hilft. Ich interpretiere Spline-Passungen mit Grafiken, die meinen Mitarbeitern gefallen. Matt eine Transformation ist fast immer nötig. Es ist nur eine Frage der Angemessenheit der Stichprobengröße, um genügend Parameter für nichtlineare Effekte abzuschätzen. Regressionssplines schätzen die Transformationen direkt und führen zu geeigneten Konfidenzintervallen, die für "Daten-Looks" bestraft werden. Residuen beinhalten einen indirekten Ansatz.
Frank Harrell
Tut mir leid, ich habe immer noch den Dreh raus, hier zu posten. Bitte vergib. Um meinen letzten Kommentar zu erläutern: Ein aktuelles Beispiel, das ich in einem Text durchgesehen habe, hatte das resultierende Modell y ~ x1 + log (x2), und der einzige Hinweis zur Transformation lautet: "Es war offensichtlich, dass x2 für eine logarithmische Transformation gut geeignet war . " Ich versuche mein Gefühl dafür zu verbessern, wann Transformationen anwendbar sind. Reicht es aus, nur die y ~ x_i-Diagramme zu betrachten und so vorzugehen, wie wir es im Fall eines einzelnen Prädiktors tun würden? Was sollte ich noch beachten?
Matt