Ist die variable Reihenfolge bei der linearen Regression von Bedeutung?

9

Ich untersuche das Zusammenspiel zweier Variablen ( und ). Zwischen diesen Variablen besteht eine große lineare Korrelation mit . Aus der Natur des Problems kann ich nichts über die Ursache sagen (ob verursacht oder umgekehrt). Ich möchte Abweichungen von der Regressionslinie untersuchen, um Ausreißer zu erkennen. Dazu kann ich entweder eine lineare Regression von als Funktion von erstellen oder umgekehrt. Kann meine Wahl der variablen Reihenfolge meine Ergebnisse beeinflussen?x1x2r>0.9x1x2x1x2

George
quelle
Bei der Suche nach Ausreißern sollten Sie zuerst Ihre abhängige Variable gegen und und nach Ausreißern suchen. x1x2
Schenectady
Ist das Auffinden von Ausreißern das Ziel Ihrer Untersuchung? Wenn ja, sollten Sie zuerst Ihre abhängige Variable gegen und und dann Ausreißertests durchführen. Wenn Sie eine mögliche Ursache finden, sollten Sie ein geplantes Experiment durchführen. Wenn der Zweck Ihres Experiments darin besteht, eine Beziehung zwischen Ihren beiden unabhängigen Variablen zu finden, reicht es nicht aus, einen Zufall der gesammelten Daten zu betrachten. x1x2
Schenectady
Mir ist nicht klar, was Sie unter Ausreißern verstehen. Wenn Ihre Daten Ausreißer enthalten, wirken sich diese auf die Berechnung der Regressionsgeraden aus. Warum suchen Sie gleichzeitig nach Ausreißern in und ? x1x2
DQdlM
@schenectady Verwenden Sie bitte $$ für LaTeX in Kommentaren.

Antworten:

3

Dies ist sicherlich möglich (tatsächlich ist es sogar im Hinblick auf die Annahmen zu Ihren Daten von Bedeutung - Sie treffen nur Annahmen über die Verteilung des Ergebnisses angesichts der Kovariate). In diesem Licht könnten Sie einen Begriff wie "inverse Vorhersagevarianz" nachschlagen. In jedem Fall sagt die lineare Regression nichts über die Kausalität aus! Bestenfalls kann man durch sorgfältiges Design etwas über Kausalität sagen.

Nick Sabbe
quelle
3

Um den Fall symmetrisch zu machen, kann man die Differenz zwischen den beiden Variablen ( ) gegenüber ihrem Durchschnittswert zurückführen.Δx

Boris Gorelik
quelle
3

Die Standardregression minimiert den vertikalen Abstand zwischen den Punkten und der Linie. Durch Umschalten der beiden Variablen wird nun der horizontale Abstand minimiert (bei gleichem Streudiagramm). Eine andere Option (die mehrere Namen trägt) besteht darin, den senkrechten Abstand zu minimieren. Dies kann unter Verwendung von Hauptkomponenten erfolgen.

Hier ist ein R-Code, der die Unterschiede zeigt:

library(MASS)

tmp <- mvrnorm(100, c(0,0), rbind( c(1,.9),c(.9,1)) )

plot(tmp, asp=1)

fit1 <- lm(tmp[,1] ~ tmp[,2])  # horizontal residuals
segments( tmp[,1], tmp[,2], fitted(fit1),tmp[,2], col='blue' )
o <- order(tmp[,2])
lines( fitted(fit1)[o], tmp[o,2], col='blue' )

fit2 <- lm(tmp[,2] ~ tmp[,1])  # vertical residuals
segments( tmp[,1], tmp[,2], tmp[,1], fitted(fit2), col='green' )
o <- order(tmp[,1])
lines( tmp[o,1], fitted(fit2)[o], col='green' )

fit3 <- prcomp(tmp)
b <- -fit3$rotation[1,2]/fit3$rotation[2,2]
a <- fit3$center[2] - b*fit3$center[1]
abline(a,b, col='red')
segments(tmp[,1], tmp[,2], tmp[,1]-fit3$x[,2]*fit3$rotation[1,2], tmp[,2]-fit3$x[,2]*fit3$rotation[2,2], col='red')

legend('bottomright', legend=c('Horizontal','Vertical','Perpendicular'), lty=1, col=c('blue','green','red'))

Um nach Ausreißern zu suchen, können Sie einfach die Ergebnisse der Hauptkomponentenanalyse darstellen.

Vielleicht möchten Sie auch Folgendes ansehen:

Bland und Altman (1986), Statistische Methoden zur Bewertung der Übereinstimmung zwischen zwei Methoden der klinischen Messung. Lancet, S. 307-310

Greg Snow
quelle
0

Ihre x1- und x2-Variablen sind kollinear. Bei Vorhandensein von Multikollinearität sind Ihre Parameterschätzungen immer noch unvoreingenommen, aber ihre Varianz ist groß, dh Ihre Schlussfolgerung zur Signifikanz der Parameterschätzungen ist ungültig, und Ihre Vorhersage weist große Konfidenzintervalle auf.

Die Interpretation der Parameterschätzungen ist ebenfalls schwierig. Im linearen Regressionsrahmen ist die Parameterschätzung für x1 die Änderung von Y für eine Änderung der Einheit von x1, wenn jede andere exogene Variable im Modell konstant gehalten wird. In Ihrem Fall sind x1 und x2 stark korreliert, und Sie können x2 nicht konstant halten, wenn sich x1 ändert.

yeveee
quelle