Interpretation des log transformierten Prädiktors und / oder der Antwort

Ich frage mich, ob es einen Unterschied in der Interpretation macht, ob nur die abhängigen, sowohl die abhängigen als auch die unabhängigen Variablen oder nur die unabhängigen Variablen log-transformiert werden.

Betrachten Sie den Fall von

log(DV) = Intercept + B1*IV + Error

Ich kann die IV als prozentuale Erhöhung interpretieren, aber wie ändert sich dies, wenn ich habe

log(DV) = Intercept + B1*log(IV) + Error

oder wenn ich habe

DV = Intercept + B1*log(IV) + Error

regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model hoch oben
quelle

Ich habe das Gefühl, dass die Interpretation "prozentualer Anstieg" nicht korrekt ist, aber ich habe nicht genug Verständnis, um genau zu sagen, warum. Ich hoffe, dass jemand helfen kann ... Darüber hinaus würde ich empfehlen, die Modellierung mithilfe von Protokollen durchzuführen, wenn diese dazu beitragen, eine XY-Beziehung besser zu erstellen, aber ausgewählte Beispiele für diese Beziehung unter Verwendung der ursprünglichen Variablen melden . Vor allem, wenn es sich um ein technisch nicht zu versiertes Publikum handelt.

Rolando2

@ rolando2: da stimme ich nicht zu. Wenn ein gültiges Modell eine Transformation erfordert, stützt sich eine gültige Interpretation normalerweise auf Koeffizienten aus dem transformierten Modell. Es bleibt die Aufgabe des Untersuchers, die Bedeutung dieser Koeffizienten dem Publikum angemessen mitzuteilen. Das ist natürlich der Grund, warum wir so viel Geld bekommen, dass unsere Gehälter erst einmal umgerechnet werden müssen.

Jthetzel

@ BigBucks: Nun, sieh es so an. Angenommen, Ihr Publikum kann einfach nicht verstehen, was Sie meinen, wenn Sie erklären, dass sich Y für jede Änderung von 1 im Protokoll (Basis 10) von X um b ändert. Angenommen, sie können 3 Beispiele mit X-Werten von 10, 100 und 1000 verstehen. An diesem Punkt werden sie wahrscheinlich die nichtlineare Natur der Beziehung erkennen. Sie könnten immer noch das gesamte log-basierte b melden, aber die Angabe dieser Beispiele könnte den Unterschied ausmachen.

Rolando2

.... Obwohl ich jetzt Ihre großartige Erklärung unten lese, könnte die Verwendung dieser "Vorlagen" vielen von uns helfen, diese Art von Verständnisproblemen zu klären.

Rolando2

Leser hier können auch bei diesen eng verwandten Themen suchen: Wie logarithmisch transformierten Koeffizienten in der linearen Regression zu interpretieren , und wenn-und-warum-to-take-the-log-of-a-Verteilung-of-Zahlen .

gung - Wiedereinsetzung von Monica

Antworten:

Charlie liefert eine nette, korrekte Erklärung. Die Statistical Computing-Site der UCLA enthält einige weitere Beispiele: http://www.ats.ucla.edu/stat/sas/faq/sas_interpret_log.htm und http://www.ats.ucla.edu/stat/mult_pkg/ faq / general / log_transformed_regression.htm

Um Charlies Antwort zu ergänzen, finden Sie unten spezifische Interpretationen Ihrer Beispiele. Wie immer wird bei Koeffizienteninterpretationen davon ausgegangen, dass Sie Ihr Modell verteidigen können, dass die Regressionsdiagnose zufriedenstellend ist und dass die Daten aus einer gültigen Studie stammen.

Beispiel A : Keine Transformationen

DV = Intercept + B1 * IV + Error

"Eine Erhöhung der IV um eine B1Einheit ist mit einer Erhöhung der DV um ( ) Einheiten verbunden."

Beispiel B : Ergebnis transformiert

log(DV) = Intercept + B1 * IV + Error

"Eine Erhöhung der IV um eine Einheit ist mit einer B1 * 100Erhöhung der DV um ( ) Prozent verbunden."

Beispiel C : Belichtung transformiert

DV = Intercept + B1 * log(IV) + Error

"Eine Erhöhung der IV um ein Prozent ist mit einer B1 / 100Erhöhung der DV um ( ) Einheiten verbunden."

Beispiel D : Ergebnis transformiert und Exposition transformiert

log(DV) = Intercept + B1 * log(IV) + Error

"Eine Erhöhung der IV um ein B1Prozent ist mit einer Erhöhung der DV um ( ) Prozent verbunden."

jthetzel
quelle

Halten diese Interpretationen unabhängig von der Basis des Logarithmus?

Ayalew A.

Beispiel B: Ergebnisumgewandeltes Protokoll (DV) = Abschnitt + B1 * IV + Fehler "Eine Erhöhung der IV um eine Einheit ist mit einer Erhöhung der DV um (B1 * 100) Prozent verbunden DV-Reduzierung? Vielen Dank für Ihre Antwort

Antouria

Ein DV ~ B1 * -Log (IV) ist also ein gutes Modell für null-gebundene stetige abhängige Variablen?

Bakaburg

Ich kann verwirrt sein. Wenn Sie das Ergebnis log-transformieren, müssen Sie den Koeffizienten erneut potenzieren, um die multiplikative Differenz zu ermitteln. Die Interpretation auf der logarithmischen Skala funktioniert nur als Annäherung, wenn das Verhältnis sehr nahe bei 1 liegt.

AdamO

Links sind kaputt.

Nick Cox

β_{1} = \frac{\partial Log (y)}{\partial Log (X)} .

$\begin{equation*}\beta_1 = \frac{\partial \log(y)}{\partial \log(x)}.\end{equation*}$

\frac{\partial Log (y)}{\partial y} = \frac{1}{y}

$\begin{equation*} \frac{\partial \log(y)}{\partial y} = \frac{1}{y} \end{equation*}$

\partial Log (y) = \frac{\partial y}{y} .

$\begin{equation*} \partial \log(y) = \frac{\partial y}{y}. \end{equation*}$

y

$y$

x

$x$

$\beta_1$ $y$ $x$

Nach der gleichen Logik haben wir für das Level-Log-Modell

β_{1} = \frac{\partial y}{\partial Log (X)} = 100 \frac{\partial y}{100 \times \partial Log (X)} .

$\begin{equation*}\beta_1 = \frac{\partial y}{\partial \log(x)} = 100 \frac{\partial y}{100 \times \partial \log(x)}.\end{equation*}$

β_{1} / 100

$\beta_1/100$

y

$y$

x

$x$

Charlie
quelle

\partial Log (y) = \frac{\partial y}{y} ?

$\begin{equation*} \partial \log(y) = \frac{\partial y}{y}? \end{equation*}$

\log (y)

$\log(y)$

y

$y$

\partial y

$\partial y$

\partial y \approx y_{1} - y_{0}

$\partial y \approx y_1 - y_0$

y

$y$

y

$y$

y

$y$

Der Hauptzweck der linearen Regression besteht darin, eine mittlere Differenz der Ergebnisse zu schätzen, indem benachbarte Ebenen eines Regressors verglichen werden. Es gibt viele Arten von Mitteln. Das arithmetische Mittel kennen wir am besten.

EIN M (X) = \frac{(X_{1} + X_{2} + \dots + X_{n})}{n}

$AM(X) = \frac{\left( X_1 + X_2 + \ldots + X_n \right)}{n}$

Der AM wird unter Verwendung von OLS und nicht transformierten Variablen geschätzt. Das geometrische Mittel ist unterschiedlich:

G M (X) = \sqrt[n]{(X_{1} \times X_{2} \times \dots \times X_{n})} = \exp (EIN M (Log (X))

$GM(X) = \sqrt[\LARGE{n}]{\left( X_1 \times X_2 \times \ldots \times X_n \right)} = \exp(AM(\log(X))$

Praktisch ist ein GM-Unterschied ein multiplikativer Unterschied: Sie zahlen X% einer Zinsprämie, wenn Sie einen Kredit aufnehmen, Ihr Hämoglobinspiegel sinkt um X%, nachdem Sie mit Metformin begonnen haben, und die Ausfallrate von Federn steigt um X% als Bruchteil der Breite. In all diesen Fällen ist ein roher Mittelwertunterschied weniger sinnvoll.

log(y) ~ x $\beta_1$ $X$ $e^{\beta_1}$

$e^{\beta_1} = 0.40$

$\log(x) \approx 1-x$ $X$ $\exp(0.05) \approx 1.05$ $X$ $\exp(0.5) = 1.65$ $Y$ $X$

y ~ log(x, base=2) $x$ $X$ $\beta_1$

Schließlich werden log(y) ~ log(x)einfach beide Definitionen angewendet, um eine multiplikative Differenz zu erhalten, die Gruppen vergleicht, deren Expositionsniveaus sich multiplikativ unterscheiden.

AdamO
quelle