Was ist die intuitive Bedeutung einer linearen Beziehung zwischen den Protokollen zweier Variablen?

20

Ich habe zwei Variablen, die nicht viel Korrelation zeigen, wenn sie so wie sie sind gegeneinander geplottet werden, aber eine sehr klare lineare Beziehung, wenn ich die Protokolle jeder Variablen gegen die andere plotte.

So würde ich mit einem Modell des Typs enden:

\log (Y) = a \log (X) + b

$\log(Y) = a \log(X) + b$ , was mathematisch großartig ist, aber nicht den erklärenden Wert eines regulären linearen Modells zu haben scheint.

Wie kann ich ein solches Modell interpretieren?

regression correlation log Akaikes Kinder
quelle

5

Ich habe nichts Wesentliches zu den vorhandenen Antworten hinzuzufügen, aber ein Logarithmus im Ergebnis und im Prädiktor ist eine Elastizität. Suchen nach diesem Begriff sollten einige gute Ressourcen für die Interpretation dieser Beziehung enthalten, was nicht sehr intuitiv ist.

Upper_Case-Stop Harming Monica

Die Interpretation eines log-log-Modells, bei dem die abhängige Variable log (y) und die unabhängige Variable log (x) ist, lautet: .

% Δ = β_{1} % Δ x

$\%Δ=β_1\%Δx$

Bob

3

Der komplementäre Log-Log-Link ist eine ideale GLM-Spezifikation, wenn das Ergebnis binär ist (Risikomodell) und die Exposition kumulativ ist, z. B. Anzahl der Sexualpartner vs. HIV-Infektion. jstor.org/stable/2532454

AdamO

2

@Alexis Sie können die klebrigen Punkte sehen, wenn Sie die Kurven überlagern. Versuche curve(exp(-exp(x)), from=-5, to=5)vs curve(plogis(x), from=-5, to=5). Die Konkavität beschleunigt sich. Wenn das Risiko eines Ereignisses einer einzelnen Begegnung

p

$p$ , sollte das Risiko nach dem zweiten Ereignis

1 - (1 - p)^{2}

$1-(1-p)^2$ usw. sein. Dies ist eine Wahrscheinlichkeitsform, die nicht erfasst wird. Hohe Expositionen würden die logistischen Regressionsergebnisse dramatischer verzerren (fälschlicherweise gemäß der vorherigen Wahrscheinlichkeitsregel). Einige Simulationen würden Ihnen dies zeigen.

AdamO

1

@AdamO Es gibt wahrscheinlich ein zu schreibendes pädagogisches Papier, das eine solche Simulation enthält, die motiviert, wie ein bestimmter dichotomer Ergebnislink aus den drei ausgewählt wird, einschließlich Situationen, in denen es einen Unterschied macht und keinen Unterschied macht.

Alexis

27

Sie müssen nur beide Seiten der Gleichung exponentiell betrachten, und Sie erhalten eine potenzielle Beziehung, die für einige Daten möglicherweise Sinn ergibt.

\log (Y) = a \log (X) + b

$\log(Y) = a\log(X) + b$

\exp (\log (Y)) = \exp (a \log (X) + b)

$\exp(\log(Y)) = \exp(a \log(X) + b)$

Y = e^{b} \cdot X^{a}

$Y = e^b\cdot X^a$

Und da nur ein Parameter ist, der einen beliebigen positiven Wert annehmen kann, ist dieses Modell äquivalent zu: $e^b$

Y = c \cdot X^{a}

$Y=c \cdot X^a$

Es sollte beachtet werden, dass der Modellausdruck den Fehlerterm enthalten sollte, und diese Änderung von Variablen hat interessante Auswirkungen darauf:

\log (Y) = a \log (X) + b + ϵ

$\log(Y) = a \log(X) + b + \epsilon$

Y = e^{b} \cdot X^{a} \cdot \exp (ϵ)

$Y = e^b\cdot X^a\cdot \exp(\epsilon)$

Das heißt, Ihr Modell mit additiven Fehlern, die den Bedingungen für OLS entsprechen (normalverteilte Fehler mit konstanter Varianz), entspricht einem potenziellen Modell mit multiplikativen Fehlern, dessen Logaritmus einer Normalverteilung mit konstanter Varianz folgt.

Pere
quelle

3

OP könnte interessiert sein zu wissen, dass diese Distribution einen Namen hat, der log-normal ist: en.wikipedia.org/wiki/Log-normal_distribution

gardenhead

2

Was ist mit der Auswirkung von Jensens Ungleichung? Im Allgemeinen gilt für konvexes g:

E [g (X)] \geq g (E [X])

$E[g(X)]≥g(E[X])$

Statistik

14

Sie können Ihr Modell und die Gesamtdifferenz berechnen. Ende erhalten Sie : das nachgibt $\log(Y)=a\log(X)+b$

\frac{1}{Y} d Y = a \frac{1}{X} d X

$\frac{1}YdY=a\frac{1}XdX$

\frac{d Y}{d X} \frac{X}{Y} = a

$\frac{dY}{dX}\frac{X}{Y}=a$

Daher eine einfache Interpretation der Koeffizient wird die prozentuale Änderung in seinem für eine prozentuale Änderung in . Dies impliziert weiterhin, dass die Variable mit einem konstanten Bruchteil ( ) der Wachstumsrate von . $a$ $Y$ $X$ $Y$ $a$ $X$

RScrlli
quelle

Wenn der log-log-Plot also linear ist, würde dies eine konstante Wachstumsrate implizieren?

Dimitriy V. Masterov

Tatsächlich ist die Wachstumsrate von genau dann konstant, wenn .

Y

$Y$

a = 0

$a=0$

RScrlli

Nicht im Laufe der Zeit ist die Wachstumsrate in Bezug auf das Wachstum in x.

Dimitriy V. Masterov

Neuordnung hilft nicht, ich würde es entfernen

Aksakal

1

@ DimitriyV.Masterov Ok, da in linear ist , bedeutet dies, dass die Variable mit einem konstanten Bruchteil der Wachstumsrate von wächst . Stimmt Ihrer Meinung nach etwas mit meiner Antwort nicht?

\log (Y)

$\log(Y)$

\log (X)

$\log(X)$

Y

$Y$

X

$X$

RScrlli

7

Intuitiv gibt die Größenordnung einer Variablen an, sodass wir die Beziehung anzeigen können, da die Größenordnungen der beiden Variablen linear zusammenhängen. Zum Beispiel kann das Erhöhen des Prädiktors um eine Größenordnung mit einem Anstieg von drei Größenordnungen der Antwort verbunden sein. $\log$

Wenn wir ein Log-Log-Diagramm verwenden , hoffen wir, eine lineare Beziehung zu sehen. Anhand eines Beispiels aus dieser Frage können wir die linearen Modellannahmen überprüfen:

log-log

qwr
quelle

3

+1 für eine intuitive Antwort auf ein nicht intuitives Konzept. Das eingeschlossene Bild verletzt jedoch eindeutig die konstante Fehlervarianz über den Prädiktor hinweg.

Frans Rodenburg

1

Die Antwort ist richtig, aber die Zuschreibung der Urheberschaft ist falsch. Das Bild sollte nicht Google Images zugeordnet werden, sondern zumindest der Webseite, auf der es zu finden ist. Dies kann durch einfaches Klicken auf Google-Bilder ermittelt werden.

Pere

@Pere Ich kann die Originalquelle des Bildes leider nicht finden (zumindest mit der umgekehrten Bildsuche)

qwr

Es scheint ursprünglich von diagramss.us zu stammen, obwohl diese Seite nicht erreichbar ist und die meisten Seiten, abgesehen von der Homepage,

Henry

4

Vergleichen Sie die Antwort von @Rscrill mit den tatsächlichen diskreten Daten

\log (Y_{t}) = a \log (X_{t}) + b, \log (Y_{t - 1}) = a \log (X_{t - 1}) + b

$\log(Y_t) = a\log(X_t) + b,\;\;\; \log(Y_{t-1}) = a\log(X_{t-1}) + b$

⟹ \log (Y_{t}) - \log (Y_{t - 1}) = a [\log (X_{t}) - \log (X_{t - 1})]

$\implies \log(Y_t) - \log(Y_{t-1}) = a\left[\log(X_t)-\log(X_{t-1})\right]$

Aber

\log (Y_{t}) - \log (Y_{t - 1}) = \log (\frac{Y_{t}}{Y_{t - 1}}) \equiv \log (\frac{Y_{t - 1} + Δ Y_{t}}{Y_{t - 1}}) = \log (1 + \frac{Δ Y_{t}}{Y_{t - 1}})

$\log(Y_t) - \log(Y_{t-1}) = \log\left(\frac{Y_t}{Y_{t-1}}\right) \equiv \log\left(\frac{Y_{t-1}+\Delta Y_t}{Y_{t-1}}\right) = \log\left(1+\frac{\Delta Y_t}{Y_{t-1}}\right)$

$\frac{\Delta Y_t}{Y_{t-1}}$ ist die prozentuale Änderung von zwischen den Perioden und oder die Wachstumsrate von , sagen wir . Wenn es kleiner als , haben wir, dass eine akzeptable Annäherung ist $Y$ $t-1$ $t$ $Y_t$ $g_{Y_{t}}$ $0.1$

\log (1 + \frac{Δ Y_{t}}{Y_{t - 1}}) \approx \frac{Δ Y_{t}}{Y_{t - 1}} = g_{Y_{t}}

$\log\left(1+\frac{\Delta Y_t}{Y_{t-1}}\right) \approx \frac{\Delta Y_t}{Y_{t-1}}=g_{Y_{t}}$

Deshalb bekommen wir

g_{Y_{t}} \approx a g_{X_{t}}

$g_{Y_{t}}\approx ag_{X_{t}}$

Dies bestätigt in empirischen Studien die theoretische Behandlung von @Rscrill.

Alecos Papadopoulos
quelle

1

Dies ist wahrscheinlich, was ein Mathematiker intuitiv nennen würde :)

Richard Hardy

2

Eine lineare Beziehung zwischen den Logs entspricht einer Potenzgesetzabhängigkeit : In der Physik bedeutet ein solches Verhalten, dass das System skalierungsfrei oder skalierungsinvariant ist . Wenn beispielsweise Abstand oder Zeit ist, bedeutet dies, dass die Abhängigkeit von nicht durch eine charakteristische Länge oder Zeitskala charakterisiert werden kann (im Gegensatz zu exponentiellen Zerfällen). Als Ergebnis weist ein solches System eine langreichweitige Abhängigkeit der auf .

Y \sim X^{α}

$Y \sim X^\alpha$

X

$X$

X

$X$

Y

$Y$

X

$X$

Itamar
quelle

Was ist die intuitive Bedeutung einer linearen Beziehung zwischen den Protokollen zweier Variablen?

Antworten: