Regression mit inverser unabhängiger Variable

10

Nehmen wir an, ich habe einen Vektor abhängiger Variablen und einen Vektor unabhängiger Variablen. Wenn gegen aufgetragen wird , sehe ich, dass zwischen beiden eine lineare Beziehung (Aufwärtstrend) besteht. Dies bedeutet nun auch, dass zwischen und ein linearer Abwärtstrend besteht .NYNXY1XYX

Wenn ich nun die Regression ausführe: und den angepassten Wert erhalteY=βX+ϵY^=β^X

Dann führe ich die Regression aus: und erhalte den angepassten Wert Y=α1X+ϵY~=α^1X

Werden die beiden vorhergesagten Werte und ungefähr gleich sein?Y^Y~

Mayou
quelle

Antworten:

10

 Wenn Y gegen aufgetragen wird , sehe ich, dass zwischen beiden eine lineare Beziehung (Aufwärtstrend) besteht. Dies bedeutet nun auch, dass zwischen Y und X ein linearer Abwärtstrend besteht1X

Der letzte Satz ist falsch: Es gibt einen Abwärtstrend, aber er ist keineswegs linear: Y ~ 1 / X. Y ~ X.

Ich habe ein als Funktion plus ein bisschen Rauschen auf . Wie Sie sehen können , ist gegen alles andere als linear , während das Zeichnen von gegen ein lineares Verhalten ergibt .f(x)=1xYY1XYX

(@whuber weist darauf hin, dass das Diagramm gegen nicht homoskedastisch aussieht. Ich denke, es scheint eine höhere Varianz für niedriges da die viel höhere Falldichte zu einem größeren Bereich führt, was im Wesentlichen das ist, was wir tun wahrnehmen. Eigentlich sind die Daten homoskedastisch: Ich habe die Daten generiert, also keine Abhängigkeit von der Größe von )Y1XX.YY = 1 / X + rnorm (length (X), sd = 0.1)X

Im Allgemeinen ist die Beziehung also sehr nicht linear. Das heißt, es sei denn, Ihr ist so eng, dass SieHier ist ein Beispiel:d 1Xd1xdx=1x2const.

Y ~ 1 / X. Y ~ X.

Endeffekt:

  • Im Allgemeinen ist es sehr schwierig, eine Funktion vom Typ durch eine lineare oder Polynomfunktion zu approximieren. Und ohne Offset-Term erhalten Sie nie eine vernünftige Annäherung.1X
  • Wenn das Intervall eng genug ist, um eine lineare Annäherung zu ermöglichen, können Sie anhand der Daten ohnehin nicht erraten, dass die Beziehung und nicht linear ( ) sein sollte.1X X.1XX
cbeleites unzufrieden mit SX
quelle
Sie beginnen mit einer ungültigen Annahme: Das OP hat nie behauptet, dass und linear zusammenhängen. Die einzige Behauptung war, dass und linear miteinander verbunden zu sein scheinen (mit einer negativen Steigung). Das ist natürlich, zeigt an, dass und sind nicht linear bezogen. Ich denke, dies ist eine so starke Abweichung von der Frage, dass der Rest Ihres Beitrags die Leser möglicherweise nur noch weiter irreführt. X Y 1 / X Y X.YXY1/XYX
whuber
2
@whuber: Es tut mir total leid, aber im Moment scheint es ziemlich dicht zu sein. Die Frage lautet: "Wenn Y gegen 1 / X aufgetragen wird, sehe ich, dass es eine lineare Beziehung gibt (Aufwärtstrend)." Das habe ich versucht, im 1. und 3. Bild darzustellen: Y über 1 / X linear ansteigend. Ich habe dann das entsprechende Y über X aufgetragen (nichtlinear, abnehmend). Wo verstehe ich das OP falsch?
cbeleites unglücklich mit SX
1
Tut mir nicht leid - ich habe Ihren Beitrag einfach falsch gelesen (indem ich die Beschriftungen der X-Achsen im ersten Bild transponiert habe)! Der Fehler liegt ganz bei mir. Ich stimme daher Ihrer Antwort zu, die richtig und informativ ist. Wenn Sie jedoch eine Chance bekommen, möchten Sie möglicherweise die Auswirkung dieser Transformation auf die Homoskedastizität (oder deren Fehlen) der Residuen (die in Ihrem vs Diagramm nachgewiesen werden können) kommentieren . 1 / X.Y1/X
whuber
Vielen Dank für die Beobachtungen zur Homoskedastizität. Durch die Transformation der unabhängigen Variablen ändern Sie nicht die Homoskedastizität der Antwort - aber ihr Erscheinungsbild kann sich sicherlich ändern, wie Sie hervorheben, was nützlich zu wissen ist. (Wir haben dieses Phänomen in mehreren anderen Beiträgen gesehen, in denen Menschen Heteroskedastizität beispielsweise auf bloße Unterschiede in der Gruppenpopulation
zurückführen
Sehr gründliche Antwort und Kommentare! Danke @cbeleites und @whuber!
Mayou
2

Ich sehe keinen Grund dafür, dass sie im Allgemeinen "ungefähr gleich" sind - aber was genau meinen Sie mit ungefähr gleich?

Hier ist ein Spielzeugbeispiel:

library(ggplot2)
n <- 10^3
df <- data.frame(x=runif(n, min=1, max=2))
df$y <- 5 / df$x + rnorm(n)
p <- (ggplot(df, aes(x=x, y=y)) +
      geom_point() +
      geom_smooth(method="lm", formula=y ~ 0 + x) +  # Blue, OP's y hat
      geom_smooth(method="lm", formula=y ~ 0 + I(x^-1), color="red"))  # Red, OP's y tilde
p

Das Bild:

Ich würde sagen, diese sind alles andere als "ungefähr gleich".

Das "blaue" Modell würde viel besser abschneiden, wenn es einen Intercept-Term (dh einen konstanten) Term hätte ...

Adrian
quelle
Es ist schwer zu sagen, was Sie mit dem blauen Modell machen, aber es ist sicherlich nichts anderes als das, was das OP beschreibt! Der rote ist der in der Frage dargestellten Situation viel näher.
whuber
@cbeleites Der fehlende Offset erklärt, was sonst eher ein Rätsel war. Adrian, Sie haben Recht - aber ich bezweifle, dass Ihr Beispiel einen großen Einfluss auf die Daten des OP hat. Der Beitrag beschreibt eine Situation, in der die Darstellung von gegen (ohne Unterbrechung) die gute zu sein scheint, während Sie eine Situation veranschaulichen, in der die gute Beziehung zwischen und besteht - und natürlich auch die von gegen fit ist schrecklich. 1 / X Y X Y 1 / X.Y1/XYXY1/X
whuber