Wann ist es in der linearen Regression angebracht, das Protokoll einer unabhängigen Variablen anstelle der tatsächlichen Werte zu verwenden?

164

Bin ich auf der Suche nach einer besser verhaltenen Verteilung für die betreffende unabhängige Variable oder nach einer Reduzierung der Auswirkung von Ausreißern oder nach etwas anderem?

regression distributions data-transformation logarithm regression-strategies d_2
quelle

1

Fragen Sie sich, wie Sie die Auswirkung von Ausreißern verringern oder wann Sie das Protokoll einer Variablen verwenden sollen?

Benjamin Bannier

23

Ich denke, das OP sagt: "Ich habe von Leuten gehört, die die Log-on-Eingabevariablen verwenden: Warum machen sie das?"

Shane

Warum nur das Protokoll? Sollte diese Frage nicht für eine Datentransformationstechnik gelten, mit der die mit mx + b verbundenen Residuen minimiert werden können?

AsymLabs

1

@AsymLabs - Das Protokoll kann speziell für die Regression sein, da es die einzige Funktion ist, die ein Produkt in eine Summe umwandelt.

Wahrscheinlichkeit

12

Eine Warnung an die Leser: Bei der Frage geht es um die Umwandlung von Infusionen, aber einige der Antworten sprechen offenbar über Gründe für die Umwandlung von Infusionen. Lassen Sie sich nicht in die Irre führen, dass dies alles auch Gründe sind, IVs zu transformieren - manche können es sein, andere sind es sicherlich nicht. Insbesondere ist die Verteilung der IV im Allgemeinen nicht relevant (in der Tat ist die marginale Verteilung der DV auch nicht relevant).

Glen_b

168

Ich zögere immer, in einen Thread mit so vielen hervorragenden Antworten wie diesen zu springen, aber es fällt mir auf, dass nur wenige der Antworten einen Grund dafür bieten, den Logarithmus einer anderen Transformation vorzuziehen, die die Daten "quetscht", z.

Bevor er nach , dass immer, lassen Sie uns rekapitulieren die Weisheit in den bestehenden Antworten auf eine allgemeinere Art und Weise. Einige nichtlineare Wiederausdrücke der abhängigen Variablen werden angezeigt, wenn eine der folgenden Bedingungen zutrifft:

Die Residuen haben eine verzerrte Verteilung. Der Zweck einer Transformation besteht darin, Residuen zu erhalten, die ungefähr symmetrisch verteilt sind (natürlich ungefähr Null).
Die Ausbreitung der Residuen ändert sich systematisch mit den Werten der abhängigen Variablen ("Heteroskedastizität"). Der Zweck der Transformation besteht darin, diese systematische Änderung der Ausbreitung zu beseitigen und eine ungefähre "Homoskedastizität" zu erreichen.
Eine Beziehung linearisieren.
Wenn wissenschaftliche Theorie anzeigt. Beispielsweise schlägt die Chemie häufig vor, Konzentrationen als Logarithmen auszudrücken (Aktivitäten oder sogar den bekannten pH-Wert).
Wenn eine nebulösere statistische Theorie vorschlägt, spiegeln die Residuen "zufällige Fehler" wider, die sich nicht additiv ansammeln.
Ein Modell vereinfachen. Beispielsweise kann manchmal ein Logarithmus die Anzahl und Komplexität von "Interaktions" -Termen vereinfachen.

(Diese Angaben können sich widersprechen; in solchen Fällen ist ein Urteil erforderlich.)

Also, wenn ein Logarithmus speziell angegeben anstelle einer anderen Transformation?

Die Residuen haben eine "stark" positiv verzerrte Verteilung. In seinem Buch über EDA bietet John Tukey quantitative Möglichkeiten, um die Transformation (innerhalb der Familie der Box-Cox- oder Potenztransformationen) basierend auf Rangstatistiken der Residuen abzuschätzen. Es kommt wirklich darauf an, dass, wenn das Logbuch die Residuen symmetrisiert, es wahrscheinlich die richtige Form des erneuten Ausdrucks war; Andernfalls ist eine andere erneute Expression erforderlich.
Wenn die SD der Residuen direkt proportional zu den angepassten Werten ist (und nicht zu einer gewissen Potenz der angepassten Werte).
Wenn die Beziehung nahezu exponentiell ist.
Wenn angenommen wird, dass Residuen multiplikativ akkumulierende Fehler widerspiegeln.
Sie möchten wirklich ein Modell, in dem geringfügige Änderungen der erklärenden Variablen als multiplikative (prozentuale) Änderungen der abhängigen Variablen interpretiert werden.

Schließlich sind einige nicht - Gründe für einen erneuten Ausdruck zu verwenden :

Ausreißer nicht wie Ausreißer aussehen lassen. Ein Ausreißer ist ein Datum, das nicht zu einer sparsamen, relativ einfachen Beschreibung der Daten passt. Das Ändern der Beschreibung, um das Erscheinungsbild von Ausreißern zu verbessern, ist in der Regel eine falsche Umkehrung der Prioritäten: Zuerst eine wissenschaftlich fundierte, statistisch gute Beschreibung der Daten einholen und dann alle Ausreißer untersuchen. Lassen Sie den gelegentlichen Ausreißer nicht bestimmen, wie der Rest der Daten zu beschreiben ist!
Weil die Software es automatisch gemacht hat. (Genug gesagt!)
Weil alle Daten positiv sind. (Positivität impliziert häufig eine positive Schiefe, muss dies aber nicht. Darüber hinaus können andere Transformationen besser funktionieren. Beispielsweise funktioniert eine Wurzel häufig am besten mit gezählten Daten.)
Um "schlechte" Daten (möglicherweise von geringer Qualität) gut verhalten erscheinen zu lassen.
Um die Daten zeichnen zu können. (Wenn eine Transformation erforderlich ist, um die Daten plotten zu können, wird sie wahrscheinlich aus einem oder mehreren bereits erwähnten guten Gründen benötigt. Wenn der einzige Grund für die Transformation wirklich das Plotten ist, fahren Sie fort und tun Sie es - aber nur , um die Daten zu plotten Lassen Sie die Daten für die Analyse untransformiert.)

whuber
quelle

1

Was ist mit Variablen wie der Bevölkerungsdichte in einer Region oder dem Verhältnis von Kindern zu Lehrern für jeden Schulbezirk oder der Anzahl der Morde pro 1000 in der Bevölkerung? Ich habe gesehen, wie Professoren diese Variablen protokolliert haben. Mir ist nicht klar warum. Ist die Mordrate zum Beispiel nicht bereits ein Prozentsatz? Das Protokoll würde die prozentuale Änderung der Rate? Warum sollte das Protokoll des Kinder-Lehrer-Verhältnisses bevorzugt werden? Sollte die Log-Transformation für jede stetige Variable durchgeführt werden, wenn es keine zugrunde liegende Theorie über eine echte funktionale Form gibt?

user1690130

1

@JG Kleine Verhältnisse neigen dazu, Verteilungen zu verzerren. Logarithmen und Wurzeln machen sie wahrscheinlich symmetrischer. Ich verstehe Ihre prozentualen Fragen nicht: Vielleicht kombinieren Sie verschiedene prozentuale Verwendungen (eine, um einen Teil eines Ganzen auszudrücken, und eine andere, um eine relative Veränderung auszudrücken)? Ich glaube nicht, dass ich irgendetwas geschrieben habe, das dafür spricht, dass Logarithmen immer angewendet werden - ganz im Gegenteil! Daher verstehe ich die Grundlage für Ihre letzte Frage nicht.

whuber

2

"Wenn angenommen wird, dass Residuen multiplikativ akkumulierende Fehler widerspiegeln." Ich habe Probleme, diesen Satz zu interpretieren. Ist es möglich, dies mit ein oder zwei weiteren Sätzen ein wenig zu verdeutlichen? Was ist die Ansammlung, auf die Sie sich beziehen?

Hatschepsut

@ user1690130 Für Verhältnisse und Dichten sollten diese im Allgemeinen als Poisson-Familien-Verteilung für Zählungen mit einem Offset für die Belichtung angepasst werden. Zum Beispiel ist die Anzahl der Personen die Zählung und der Versatz die Fläche der Region. Siehe diese Frage für eine gute Erklärung - stats.stackexchange.com/questions/11182/…

Michael Barton

2

@ Hatschepsut ein einfaches Beispiel für multiplikativ akkumulierende Fehler wäre Volumen als abhängige Variable und Fehler bei Messungen jeder linearen Dimension.

Abalter

73

Ich sage den Schülern immer, dass es drei Gründe gibt, eine Variable unter Verwendung des natürlichen Logarithmus zu transformieren. Der Grund für die Protokollierung der Variablen bestimmt, ob Sie die unabhängige (n) abhängige (n) Variable (n) oder beide protokollieren möchten. Um ganz klar zu sein, ich spreche über den natürlichen Logarithmus.

Erstens, um die Modellanpassung zu verbessern, wie andere Poster festgestellt haben. Wenn zum Beispiel Ihre Residuen nicht normalverteilt sind, kann die Anpassung verbessert werden, indem der Logarithmus einer verzerrten Variablen geändert und die Variable "normalverteilt" wird. Zum Beispiel wird das Einkommen bei Null abgeschnitten und weist häufig eine positive Verschiebung auf. Wenn die Variable einen negativen Versatz aufweist, können Sie zuerst die Variable invertieren, bevor Sie den Logarithmus verwenden. Ich denke hier insbesondere an Likert-Skalen, die als stetige Variablen eingegeben werden. Während dies normalerweise auf die abhängige Variable zutrifft, haben Sie gelegentlich Probleme mit den Residuen (z. B. Heteroskedastizität), die durch eine unabhängige Variable verursacht werden und die manchmal korrigiert werden können, indem der Logarithmus dieser Variablen verwendet wird. Zum Beispiel hatte die Variable "Klassengröße" (dh die Anzahl der Studenten in der Vorlesung) Ausreißer, die eine Heteroskedastizität hervorriefen, da die Varianz in den Bewertungen der Dozenten größer und kleiner war Kohorten als kleinere Kohorten. Das Protokollieren der Studentenvariablen würde helfen, obwohl in diesem Beispiel entweder die Berechnung von robusten Standardfehlern oder die Verwendung von gewichteten kleinsten Quadraten die Interpretation erleichtern kann.

$\beta$ $\beta$

Y und X - eine Zunahme von X um eine Einheit würde zu einer führen $\beta$

Log Y und Log X - eine Zunahme von X um 1% würde zu einer führen $\beta$

$\beta*100$

Y und Log X - eine 1% ige Zunahme von X würde zu einer führen $\beta/100$

Und schließlich könnte es einen theoretischen Grund dafür geben. Zum Beispiel sind einige Modelle, die wir schätzen möchten, multiplikativ und daher nichtlinear. Mit Logarithmen können diese Modelle durch lineare Regression geschätzt werden. Gute Beispiele hierfür sind die Cobb-Douglas-Produktionsfunktion in der Wirtschaft und die Fleischwolfgleichung in der Bildung. Die Cobb-Douglas-Produktionsfunktion erklärt, wie Eingaben in Ausgaben umgewandelt werden:

Y = A L^{α} K^{β}

$Y = A L^\alpha K^\beta$

wo

$Y$

$A$

$L$

$K$

$\alpha$ $\beta$

Durch die Verwendung von Logarithmen lässt sich die Funktion mithilfe der linearen OLS-Regression leicht abschätzen:

\log (Y) = \log (A) + α \log (L) + β \log (K)

$\log(Y) = \log(A) + \alpha\log(L) + \beta\log(K)$

Graham Cookson
quelle

5

"Log Y und X - eine Zunahme von X um eine Einheit würde zu einer Zunahme / Abnahme von Y um β ∗ 100% führen": Ich denke, dies gilt nur, wenn β klein ist, so dass exp (β) ≈ 1 + β

Ida

1

schön und klar danke! Eine Frage, wie interpretieren Sie Intercepts im Fall von Log Y und X? und im Allgemeinen bin ich beunruhigt darüber, wie man log transformierte Regressionen

meldet

2

Ich bin ein Sauger für Antworten , die Beispiele aus Wirtschaft [ „Sie hatten mich an‚enthalten Cobb-Douglas - Produktionsfunktion ‘“] .... Eine Sache, aber: Sie sollten den Intercept Begriff in der zweiten Gleichung ändern (A log ) , um es mit der ersten Gleichung in Einklang zu bringen.

Steve S

100 \times (e^{β} - 1)

$100 \times (e^\beta-1)$

21

Weitere Informationen zu Whubers hervorragendem Argument für Gründe, den Logarithmus einigen anderen Transformationen vorzuziehen, z. B. einer Wurzel oder einem Kehrwert, wobei jedoch die eindeutige Interpretierbarkeit der aus der Log-Transformation resultierenden Regressionskoeffizienten im Vergleich zu anderen Transformationen im Mittelpunkt steht:

Oliver N. Keene. Die Protokolltransformation ist etwas Besonderes. Statistik in der Medizin 1995; 14 (8): 811 & ndash; 819. DOI: 10.1002 / sim.4780140810 . (PDF mit zweifelhafter Rechtmäßigkeit verfügbar unter http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf ).

Wenn Sie die unabhängige Variable x auf Basis b protokollieren , können Sie den Regressionskoeffizienten (und CI) als die Änderung der abhängigen Variablen y pro b- fache Zunahme von x interpretieren . (Protokolle zur Basis 2 sind daher oft nützlich, da sie der Änderung von y pro Verdopplung von x entsprechen , oder Protokolle zur Basis 10, wenn x über viele Größenordnungen variiert, was seltener ist). Andere Transformationen wie die Quadratwurzel haben keine so einfache Interpretation.

Wenn Sie die abhängige Variable y protokollieren (nicht die ursprüngliche Frage, sondern eine, auf die mehrere der vorherigen Antworten geantwortet haben), finde ich Tim Coles Vorstellung von "sympercents" attraktiv für die Präsentation der Ergebnisse (ich habe sie sogar einmal in einer Arbeit verwendet). obwohl sie anscheinend nicht allzu viel mitbekommen haben:

Tim J Cole. Sympercents: Symmetrische prozentuale Unterschiede auf der 100-log (e) -Skala vereinfachen die Darstellung von log-transformierten Daten. Statistik in der Medizin 2000; 19 (22): 3109 & ndash; 3125. DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [Ich bin so froh, dass Stat Med die Verwendung von SICIs als DOIs eingestellt hat ...]

ein Stop
quelle

1

Danke für den Hinweis und sehr gute Punkte. Die Frage von Interesse ist, ob dieses Problem für alle Transformationen gilt, nicht nur für Protokolle. Für uns sind Statistiken / Wahrscheinlichkeiten insofern nützlich, als sie eine effektive Leistungsvorhersage oder effektive Kriterien / Leitlinien ermöglichen. Im Laufe der Jahre haben wir Potenztransformationen (Protokolle mit einem anderen Namen), Polynomtransformationen und andere (auch stückweise Transformationen) verwendet, um die Residuen zu reduzieren, die Konfidenzintervalle zu verschärfen und die Vorhersagefähigkeit für einen bestimmten Datensatz zu verbessern. Sagen wir jetzt, dass dies falsch ist?

AsymLabs

1

@AsymLabs, wie unterschiedlich sind Breimans zwei Kulturen (ungefähr Prädiktoren und Modellierer)? Vgl. Zwei Kulturen - umstritten.

Denis

15

Normalerweise wird das Protokoll einer Eingabevariablen verwendet, um sie zu skalieren und die Verteilung zu ändern (z. B. um sie normal zu verteilen). Es kann jedoch nicht blind gemacht werden; Sie müssen vorsichtig sein, wenn Sie eine Skalierung vornehmen, um sicherzustellen, dass die Ergebnisse noch interpretierbar sind.

Dies wird in den meisten einleitenden statistischen Texten erörtert. Sie können auch Andrew Gelmans Artikel über "Skalieren von Regressionseingaben durch Teilen durch zwei Standardabweichungen" lesen, um dies zu diskutieren. Er hat auch eine sehr schöne Diskussion zu Beginn von "Datenanalyse mit Regression und mehrstufigen / hierarchischen Modellen" .

Die Protokollierung ist keine geeignete Methode, um mit schlechten Daten / Ausreißern umzugehen.

Shane
quelle

12

Sie neigen dazu, Protokolle der Daten zu erstellen, wenn ein Problem mit den Residuen vorliegt. Wenn Sie beispielsweise die Residuen gegen eine bestimmte Kovariate zeichnen und ein zunehmendes / abnehmendes Muster (eine Trichterform) beobachten, ist möglicherweise eine Transformation angebracht. Nicht zufällige Residuen zeigen normalerweise an, dass Ihre Modellannahmen falsch sind, dh nicht normale Daten.

Einige Datentypen eignen sich automatisch für logarithmische Transformationen. Zum Beispiel mache ich normalerweise Protokolle, wenn ich mich mit Konzentrationen oder dem Alter befasse.

Transformationen werden zwar nicht in erster Linie zum Behandeln von Ausreißern verwendet, sie helfen jedoch, da das Aufnehmen von Protokollen Ihre Daten quetscht.

csgillespie
quelle

1

Mit log ändert sich das Modell jedoch - für lineare Regression ist es y ~ a * x + b, für lineare Regression auf log ist es y ~ y0 * exp (x / x0).

1

Ich bin damit einverstanden - Logbuchänderungen nehmen Ihr Modell. Wenn Sie jedoch Ihre Daten transformieren müssen, bedeutet dies, dass Ihr Modell überhaupt nicht geeignet war.

csgillespie

2

@ cgillespie: Konzentrationen, ja; aber alter? Das ist komisch.

whuber

@whuber: Ich nehme an, es ist sehr datenabhängig, aber bei den von mir verwendeten Datensätzen würden Sie einen großen Unterschied zwischen 10 und 18 Jahren sehen, aber einen kleinen Unterschied zwischen 20 und 28 Jahren. Selbst für kleine Kinder ist der Unterschied zwischen 0 und 1 Jahren nicht der gleiche wie der Unterschied zwischen 1 und 2 Jahren.

csgillespie

1

@landroni Es ist kurz gefasst. Ich würde nicht sagen, dass es arm ist, außer es ist wahrscheinlich, dass "eg" statt "ie" beabsichtigt wurde. Ich verstehe die Verwendung von "random" hier im Sinne von "unabhängig und identisch verteilt", was in der Tat die allgemeinste Annahme ist, die von angenommen wird OLS. In einigen Situationen wird zusätzlich angenommen, dass diese gemeinsame zugrunde liegende Verteilung normal ist, dies ist jedoch in der Praxis oder in der Theorie nicht unbedingt erforderlich: Es ist lediglich erforderlich, dass die Stichprobenverteilungen der relevanten Statistiken in der Nähe der Normalverteilung liegen.

Whuber

10

$X$ $X$ $X$

$X$ $X$ $\sqrt[3]{X}$ rms $X$ $x$

require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f))  # plot spline of cr(X) against X

$\sqrt[3]{X}$ $X$

Frank Harrell
quelle

E [Y | X] = f (X)

$E[Y|X] = f(X)$

9

Ich möchte auf die Frage von user1690130 antworten, die als Kommentar zur ersten Antwort am 26. Oktober 12 hinterlassen wurde und wie folgt lautet: "Wie steht es mit Variablen wie der Bevölkerungsdichte in einer Region oder dem Verhältnis von Kindern zu Lehrern für jeden Schulbezirk oder das Anzahl der Morde pro 1000 Einwohner Ich habe gesehen, wie Professoren diese Variablen protokollierten. Es ist mir nicht klar, warum. Ist die Mordrate zum Beispiel nicht bereits ein Prozentsatz? Das Protokoll würde die prozentuale Änderung der Mordrate sein Warum sollte das Protokoll des Kinder-Lehrer-Verhältnisses bevorzugt werden? "

Ich suchte nach einer Lösung für ein ähnliches Problem und wollte mitteilen, was mein altes Statistik-Kursbuch ( Jeffrey Wooldridge. 2006. Einführende Ökonometrie - Ein moderner Ansatz, 4. Auflage. Kapitel 6 Multiple Regressionsanalyse: Weitere Probleme. 191 ) darüber aussagt. Wooldridge empfiehlt:

Variablen, die in proportionaler oder prozentualer Form auftreten, wie beispielsweise die Arbeitslosenquote, die Teilnahmequote an einer Rentenversicherung, der Prozentsatz der Studenten, die eine standardisierte Prüfung bestehen, und die Verhaftungsquote bei gemeldeten Straftaten, können entweder in ursprünglicher oder logarithmischer Form auftreten , obwohl es eine Tendenz gibt, sie in ebenen Formen zu verwenden . Dies liegt daran, dass alle Regressionskoeffizienten, an denen die ursprüngliche Variable beteiligt ist - unabhängig davon, ob es sich um die abhängige oder die unabhängige Variable handelt - eine prozentuale Punktänderungsinterpretation haben. Wenn wir verwenden, sagen wir, log ( unem ) in einer Regression, wo unem der Anteil der Arbeitslosen ist, müssen wir sehr vorsichtig sein , zwischen einem Prozentpunkt und prozentuale Veränderung zu unterscheiden. Denken Sie daran, wenn Arbeitslosigkeitvon 8 auf 9, das ist ein Anstieg um einen Prozentpunkt, aber ein Anstieg von 12,5% gegenüber der ursprünglichen Arbeitslosenquote. Die Verwendung des Protokolls bedeutet, dass wir uns die prozentuale Veränderung der Arbeitslosenquote ansehen: log (9) - log (8) = 0,118 oder 11,8%, was die logarithmische Annäherung an den tatsächlichen Anstieg von 12,5% darstellt.

Auf dieser Grundlage und unter Berücksichtigung von Whubers früherem Kommentar zur Frage von user1690130 würde ich es vermeiden, den Logarithmus einer Dichte- oder Prozentratenvariablen zu verwenden, um die Interpretation einfach zu halten, es sei denn, die Verwendung des Log-Formulars führt zu einem großen Kompromiss, wie z Tarifvariable.

Sannita
quelle

Häufig wird für Prozentsätze (dh Proportionen auf (0,1)) eine Logit-Transformation verwendet. Dies liegt daran, dass proportionale Daten häufig die Annahme der Normalität von Residuen verletzen, sodass eine Log-Transformation nicht korrekt ist.

colin

3

Shane ist der Meinung, dass es gut ist, das Protokoll zu führen, um mit schlechten Daten umzugehen. Wie ist Colin in Bezug auf die Bedeutung der normalen Residuen. In der Praxis kann man normalerweise normale Residuen erhalten, wenn die Eingabe- und Ausgabevariablen ebenfalls relativ normal sind. In der Praxis bedeutet dies, die Verteilung der transformierten und nicht transformierten Datensätze zu beobachten und sich zu vergewissern, dass sie normaler geworden sind, und / oder Normalitätstests durchzuführen (z. B. Shapiro-Wilk- oder Kolmogorov-Smirnov-Tests) und festzustellen, ob das Ergebnis normaler ist. Interpretierbarkeit und Tradition sind ebenfalls wichtig. Beispielsweise werden in der kognitiven Psychologie häufig logarithmische Transformationen der Reaktionszeit verwendet, jedoch ist mir zumindest die Interpretation einer logarithmischen RT unklar. Außerdem,

russellpierce
quelle

2

Die Antworten werden nach Stimmen sortiert. Versuchen Sie daher, sich nicht auf andere Antworten zu beziehen.

Vebjorn Ljosa

4

Normalitätstests sind in der Regel zu streng. Oft genügt es, symmetrisch verteilte Residuen zu erhalten. (In der Praxis tendieren Residuen dazu, stark erhöhte Verteilungen zu haben, teilweise als ein Artefakt der Schätzung, das ich vermute, und werden daher als "signifikant" nicht normal getestet, egal wie man die Daten erneut ausdrückt.)

whuber

@whuber: Einverstanden. Deshalb habe ich "normaler werden" angegeben. Das Ziel sollte sein, die Teststatistik auf Änderungen zu untersuchen, anstatt eine Annahme- / Ablehnungsentscheidung basierend auf dem p-Wert des Tests zu treffen.

Russellpierce

Man sollte sich IMMER auf andere Antworten beziehen!

Abalter

@abalter? Ich folge nicht

Russellpierce

Wann ist es in der linearen Regression angebracht, das Protokoll einer unabhängigen Variablen anstelle der tatsächlichen Werte zu verwenden?

Antworten: