Interpretation des log transformierten Prädiktors und / oder der Antwort

46

Ich frage mich, ob es einen Unterschied in der Interpretation macht, ob nur die abhängigen, sowohl die abhängigen als auch die unabhängigen Variablen oder nur die unabhängigen Variablen log-transformiert werden.

Betrachten Sie den Fall von

log(DV) = Intercept + B1*IV + Error 

Ich kann die IV als prozentuale Erhöhung interpretieren, aber wie ändert sich dies, wenn ich habe

log(DV) = Intercept + B1*log(IV) + Error

oder wenn ich habe

DV = Intercept + B1*log(IV) + Error

?

hoch oben
quelle
1
Ich habe das Gefühl, dass die Interpretation "prozentualer Anstieg" nicht korrekt ist, aber ich habe nicht genug Verständnis, um genau zu sagen, warum. Ich hoffe, dass jemand helfen kann ... Darüber hinaus würde ich empfehlen, die Modellierung mithilfe von Protokollen durchzuführen, wenn diese dazu beitragen, eine XY-Beziehung besser zu erstellen, aber ausgewählte Beispiele für diese Beziehung unter Verwendung der ursprünglichen Variablen melden . Vor allem, wenn es sich um ein technisch nicht zu versiertes Publikum handelt.
Rolando2
3
@ rolando2: da stimme ich nicht zu. Wenn ein gültiges Modell eine Transformation erfordert, stützt sich eine gültige Interpretation normalerweise auf Koeffizienten aus dem transformierten Modell. Es bleibt die Aufgabe des Untersuchers, die Bedeutung dieser Koeffizienten dem Publikum angemessen mitzuteilen. Das ist natürlich der Grund, warum wir so viel Geld bekommen, dass unsere Gehälter erst einmal umgerechnet werden müssen.
Jthetzel
1
@ BigBucks: Nun, sieh es so an. Angenommen, Ihr Publikum kann einfach nicht verstehen, was Sie meinen, wenn Sie erklären, dass sich Y für jede Änderung von 1 im Protokoll (Basis 10) von X um b ändert. Angenommen, sie können 3 Beispiele mit X-Werten von 10, 100 und 1000 verstehen. An diesem Punkt werden sie wahrscheinlich die nichtlineare Natur der Beziehung erkennen. Sie könnten immer noch das gesamte log-basierte b melden, aber die Angabe dieser Beispiele könnte den Unterschied ausmachen.
Rolando2
1
.... Obwohl ich jetzt Ihre großartige Erklärung unten lese, könnte die Verwendung dieser "Vorlagen" vielen von uns helfen, diese Art von Verständnisproblemen zu klären.
Rolando2
1
Leser hier können auch bei diesen eng verwandten Themen suchen: Wie logarithmisch transformierten Koeffizienten in der linearen Regression zu interpretieren , und wenn-und-warum-to-take-the-log-of-a-Verteilung-of-Zahlen .
gung - Wiedereinsetzung von Monica

Antworten:

42

Charlie liefert eine nette, korrekte Erklärung. Die Statistical Computing-Site der UCLA enthält einige weitere Beispiele: http://www.ats.ucla.edu/stat/sas/faq/sas_interpret_log.htm und http://www.ats.ucla.edu/stat/mult_pkg/ faq / general / log_transformed_regression.htm

Um Charlies Antwort zu ergänzen, finden Sie unten spezifische Interpretationen Ihrer Beispiele. Wie immer wird bei Koeffizienteninterpretationen davon ausgegangen, dass Sie Ihr Modell verteidigen können, dass die Regressionsdiagnose zufriedenstellend ist und dass die Daten aus einer gültigen Studie stammen.

Beispiel A : Keine Transformationen

DV = Intercept + B1 * IV + Error 

"Eine Erhöhung der IV um eine B1Einheit ist mit einer Erhöhung der DV um ( ) Einheiten verbunden."

Beispiel B : Ergebnis transformiert

log(DV) = Intercept + B1 * IV + Error 

"Eine Erhöhung der IV um eine Einheit ist mit einer B1 * 100Erhöhung der DV um ( ) Prozent verbunden."

Beispiel C : Belichtung transformiert

DV = Intercept + B1 * log(IV) + Error 

"Eine Erhöhung der IV um ein Prozent ist mit einer B1 / 100Erhöhung der DV um ( ) Einheiten verbunden."

Beispiel D : Ergebnis transformiert und Exposition transformiert

log(DV) = Intercept + B1 * log(IV) + Error 

"Eine Erhöhung der IV um ein B1Prozent ist mit einer Erhöhung der DV um ( ) Prozent verbunden."

jthetzel
quelle
1
Halten diese Interpretationen unabhängig von der Basis des Logarithmus?
Ayalew A.
Beispiel B: Ergebnisumgewandeltes Protokoll (DV) = Abschnitt + B1 * IV + Fehler "Eine Erhöhung der IV um eine Einheit ist mit einer Erhöhung der DV um (B1 * 100) Prozent verbunden DV-Reduzierung? Vielen Dank für Ihre Antwort
Antouria
Ein DV ~ B1 * -Log (IV) ist also ein gutes Modell für null-gebundene stetige abhängige Variablen?
Bakaburg
2
Ich kann verwirrt sein. Wenn Sie das Ergebnis log-transformieren, müssen Sie den Koeffizienten erneut potenzieren, um die multiplikative Differenz zu ermitteln. Die Interpretation auf der logarithmischen Skala funktioniert nur als Annäherung, wenn das Verhältnis sehr nahe bei 1 liegt.
AdamO
Links sind kaputt.
Nick Cox
22

β1=Log(y)Log(X).
Log(y)y=1y
Log(y)=yy.
yX

β1yX

Nach der gleichen Logik haben wir für das Level-Log-Modell

β1=yLog(X)=100y100×Log(X).
β1/100yX
Charlie
quelle
Log(y)=yy?
1
log(y)yyyy1-y0yyy
7

Der Hauptzweck der linearen Regression besteht darin, eine mittlere Differenz der Ergebnisse zu schätzen, indem benachbarte Ebenen eines Regressors verglichen werden. Es gibt viele Arten von Mitteln. Das arithmetische Mittel kennen wir am besten.

EINM(X)=(X1+X2++Xn)n

Der AM wird unter Verwendung von OLS und nicht transformierten Variablen geschätzt. Das geometrische Mittel ist unterschiedlich:

GM(X)=(X1×X2××Xn)n=exp(EINM(Log(X))

Bildbeschreibung hier eingeben

Praktisch ist ein GM-Unterschied ein multiplikativer Unterschied: Sie zahlen X% einer Zinsprämie, wenn Sie einen Kredit aufnehmen, Ihr Hämoglobinspiegel sinkt um X%, nachdem Sie mit Metformin begonnen haben, und die Ausfallrate von Federn steigt um X% als Bruchteil der Breite. In all diesen Fällen ist ein roher Mittelwertunterschied weniger sinnvoll.

log(y) ~ xβ1Xeβ1

eβ1=0,40

Log(X)1-XXexp(0,05)1,05Xexp(0,5)=1,65Y.X

y ~ log(x, base=2)XXβ1

Schließlich werden log(y) ~ log(x)einfach beide Definitionen angewendet, um eine multiplikative Differenz zu erhalten, die Gruppen vergleicht, deren Expositionsniveaus sich multiplikativ unterscheiden.

AdamO
quelle