Ökonomen (wie ich) lieben die Holztransformation. Wir lieben es besonders in Regressionsmodellen wie diesem:
lnY.ich= β1+ β2lnXich+ ϵich
Warum lieben wir es so sehr? Hier ist die Liste der Gründe, aus denen ich Studenten beim Vortrag darauf hinweise:
- Es respektiert die Positivität von . Bei realen Anwendungen in der Wirtschaft und anderswo ist von Natur aus eine positive Zahl. Dies kann ein Preis, ein Steuersatz, eine produzierte Menge, Produktionskosten, Ausgaben für eine bestimmte Warengruppe usw. sein. Die vorhergesagten Werte einer nicht transformierten linearen Regression können negativ sein. Die vorhergesagten Werte einer logarithmisch transformierten Regression können niemals negativ sein. Sie sind (Siehe eine frühere Antwort von mir zur Ableitung).Y Y j = exp ( β 1 + β 2 ln X j ) ⋅ 1Y.Y.Y.ˆj= exp( β1+ β2lnXj) ⋅ 1N∑ exp( eich)
- Das Log-Log-Funktionsformular ist überraschend flexibel. Hinweis:
Das gibt uns:
Das sind viele verschiedene Formen. Eine Linie (deren Steigung durch , die also eine beliebige positive Steigung haben kann), eine Hyperbel, eine Parabel und eine "Quadratwurzel-ähnliche" Form. Ich habe es mit und gezeichnet , aber in einer realen Anwendung würde keines davon zutreffen, so dass die Steigung und die Höhe der Kurven bei exp ( β 1 ) β1=0ε=0X=1
lnY.ichY.ichY.ich= β1+ β2lnXich+ ϵich= exp( β1+ β2lnXich) ⋅exp( ϵich)= ( Xich)β2exp( β1) ⋅exp( ϵich)
exp( β1)β1= 0ϵ = 0X= 1 würde eher von denen kontrolliert als auf 1 gesetzt.
- Wie TrynnaDoStat erwähnt, "zieht" das Protokoll-Protokoll-Formular große Werte ein, wodurch die Daten häufig einfacher zu betrachten sind und manchmal die Varianz zwischen Beobachtungen normalisiert wird.
- Der Koeffizient wird als Elastizität interpretiert. Dies ist die prozentuale Zunahme von gegenüber einer Zunahme von ein Prozent . Y Xβ2Y.X
- Wenn eine Dummy-Variable ist, schließen Sie sie ein, ohne sie zu protokollieren. In diesem Fall ist die prozentuale Differenz in zwischen der Kategorie und der Kategorie .β 2 Y X = 1 X = 0Xβ2Y.X= 1X= 0
- Wenn die Zeit ist, schließen Sie es normalerweise erneut ein, ohne es zu protokollieren. In diesem Fall ist ; 2 die Wachstumsrate in - gemessen in welcher Zeiteinheit auch immer gemessen wird. Wenn Jahre ist, dann ist der Koeffizient zum Beispiel die jährliche Wachstumsrate inβ 2 Y X X YXβ2Y.XXY.
- Der Steigungskoeffizient, wird skaleninvarianten. Dies bedeutet einerseits, dass es keine Einheiten gibt, und andererseits, dass, wenn Sie oder neu skalieren (dh die Einheiten ändern) , dies keinerlei Auswirkungen auf den geschätzten Wert von . Zumindest mit OLS und anderen verwandten Schätzern. X Y β 2β2XY.β2
- Wenn Ihre Daten normalverteilt sind, werden sie durch die Protokolltransformation normalverteilt. Normalerweise haben verteilte Daten eine Menge zu bieten.
Statistiker finden Ökonomen im Allgemeinen übermäßig begeistert von dieser speziellen Transformation der Daten. Ich denke, das liegt daran, dass sie meinen Punkt 8 und die zweite Hälfte meines Punktes 3 als sehr wichtig einschätzen. In Fällen, in denen die Daten nicht normalverteilt sind oder in denen das Aufzeichnen der Daten nicht dazu führt, dass die transformierten Daten über die Beobachtungen hinweg die gleiche Varianz aufweisen, wird ein Statistiker die Transformation nicht sehr mögen. Der Ökonom dürfte ohnehin einen Sprung nach vorne machen, da uns die Punkte 1,2 und 4-7 an der Transformation am besten gefallen.
Lassen Sie uns zuerst sehen, was normalerweise passiert, wenn wir Protokolle von etwas erstellen, das recht schief ist.
Die obere Reihe enthält Histogramme für Proben aus drei verschiedenen, zunehmend verzerrten Verteilungen.
Die untere Reihe enthält Histogramme für ihre Protokolle.
Sie können sehen, dass der mittlere Fall ( ) in Symmetrie umgewandelt wurde, während der mildere rechte Versatz ( ) nun etwas links ist. Andererseits ist die Variable mit dem größten Versatz ( ) auch nach dem Aufnehmen von Protokollen immer noch (leicht) der richtige Versatz.y x z
Wenn wir wollten, dass unsere Verteilungen normaler aussehen, hat die Transformation den zweiten und dritten Fall definitiv verbessert. Wir können sehen, dass dies helfen könnte.
Warum funktioniert es?
Beachten Sie, dass bei der Betrachtung eines Bildes der Verteilungsform weder der Mittelwert noch die Standardabweichung berücksichtigt werden - dies wirkt sich nur auf die Beschriftungen auf der Achse aus.
Wir können uns also vorstellen, uns eine Art "standardisierter" Variablen anzuschauen (obwohl sie positiv bleiben, haben alle eine ähnliche Position und Verbreitung, sagen wir).
Wenn Sie Protokolle nehmen, werden mehr Extremwerte rechts (hohe Werte) relativ zum Median "eingezogen", während Werte ganz links (niedrige Werte) dazu neigen, vom Median weiter nach hinten gedehnt zu werden.
Im ersten Diagramm haben , und Mittelwerte nahe 178, alle haben Mediane nahe 150 und ihre Protokolle haben Mediane nahe 5.x y z
Wenn wir uns die Originaldaten ansehen, liegt ein Wert ganz rechts - etwa 750 - weit über dem Median. Im Fall von sind es 5 Interquartilbereiche über dem Median.y
Wenn wir jedoch Protokolle aufnehmen, werden diese zum Median zurückgezogen. Nach der Protokollierung sind es nur etwa 2 Interquartilbereiche über dem Median.
Unterdessen liegt ein niedriger Wert wie 30 (nur 4 Werte in der Stichprobe der Größe 1000 liegen darunter) etwas unter einem Interquartilbereich unter dem Median von . Wenn wir Protokolle erstellen, handelt es sich erneut um zwei Interquartilbereiche unterhalb des neuen Medians.y
Es ist kein Zufall, dass das Verhältnis von 750/150 und 150/30 beide 5 beträgt, wenn log (750) und log (30) ungefähr den gleichen Abstand vom Median von log (y) haben. So funktionieren Protokolle: Konstante Verhältnisse werden in konstante Differenzen umgewandelt.
Es ist nicht immer so, dass das Protokoll merklich hilft. Nehmen Sie zum Beispiel eine logarithmische Zufallsvariable und verschieben Sie sie erheblich nach rechts (dh fügen Sie eine große Konstante hinzu), sodass der Mittelwert relativ zur Standardabweichung groß wird die Form. Es wäre weniger schief - aber kaum.
Aber auch andere Transformationen - zum Beispiel die Quadratwurzel - ziehen so große Werte hinein. Warum sind insbesondere Protokolle beliebter?
Ich habe am Ende des vorherigen Teils einen Grund angesprochen: Konstante Verhältnisse tendieren zu konstanten Unterschieden. Dies macht die Interpretation von Protokollen relativ einfach, da konstante prozentuale Änderungen (wie ein Anstieg von 20% auf jede einzelne einer Reihe von Zahlen) zu einer konstanten Verschiebung werden. Ein Rückgang von im natürlichen einem Rückgang der ursprünglichen Zahlen um 15%, unabhängig davon, wie groß die ursprüngliche Zahl ist.- 0,162
Viele wirtschaftliche und finanzielle Daten verhalten sich beispielsweise so (konstante oder nahezu konstante Auswirkungen auf die prozentuale Skala). Die logarithmische Skala ist in diesem Fall sehr sinnvoll. Darüber hinaus als Ergebnis dieses prozentualen Skaleneffekts. Die Streuung der Werte ist tendenziell größer, wenn sich der Mittelwert erhöht - und die Aufnahme von Protokollen stabilisiert auch die Streuung. Das ist in der Regel mehr wichtiger als Normalität. Tatsächlich stammen alle drei Verteilungen im Originaldiagramm aus Familien, in denen die Standardabweichung mit dem Mittelwert zunimmt und in jedem Fall die Varianz durch Protokollierung stabilisiert wird. [Dies passiert jedoch nicht mit allen richtig verzerrten Daten. Es kommt nur sehr häufig bei der Art von Daten vor, die in bestimmten Anwendungsbereichen auftreten.]
Es gibt auch Zeiten, in denen die Quadratwurzel die Dinge symmetrischer macht, aber es kommt tendenziell mit weniger verzerrten Verteilungen vor, als ich in meinen Beispielen hier verwende.
Wir könnten (ziemlich leicht) eine weitere Gruppe von drei leicht nach rechts geneigten Beispielen konstruieren, bei denen die Quadratwurzel eine nach links geneigte, eine symmetrische und die dritte immer noch nach rechts geneigt war (aber etwas weniger schief als zuvor).
Was ist mit linksgerichteten Distributionen?
Wenn Sie die Protokolltransformation auf eine symmetrische Verteilung angewendet haben, wird sie tendenziell nach links verschoben, aus dem gleichen Grund, aus dem ein rechter Versatz oftmals noch symmetrischer wird. Weitere Informationen hierzu finden Sie hier .
Entsprechend , wenn Sie die Log-Transformation auf etwas anwenden , die bereits Skew übrig bleibt, wird es dazu neigen , es selbst zu machen mehr links Skew, über dem Median der Dinge ziehen in noch fester, und Stretching Dinge unter dem Median nach unten noch schwieriger.
Die Protokolltransformation wäre dann also nicht hilfreich.
Siehe auch Krafttransformationen / Tukeys Leiter. Verteilungen, die schief bleiben, können durch Potenzieren oder Potenzieren symmetrischer gemacht werden. Wenn es eine offensichtliche obere Schranke hat, kann man Beobachtungen von der oberen Schranke subtrahieren (was ein rechts verzerrtes Ergebnis ergibt) und dann versuchen, das zu transformieren.
quelle
Jetzt haben Sie in einer rechtsgerichteten Verteilung einige sehr große Werte. Durch die Protokolltransformation werden diese Werte im Wesentlichen in die Mitte der Verteilung verschoben, sodass sie eher wie eine Normalverteilung aussehen.
quelle
Alle diese Antworten sind Verkaufsargumente für die natürliche Stammtransformation. Es gibt Vorbehalte zu seiner Verwendung, Vorbehalte, die für alle Transformationen verallgemeinerbar sind. In der Regel formen alle mathematischen Transformationen das PDF der zugrunde liegenden Rohvariablen neu, unabhängig davon, ob sie komprimieren, expandieren, invertieren oder neu skalieren. Die größte rein praktische Herausforderung besteht darin, dass bei Verwendung in Regressionsmodellen, bei denen Vorhersagen eine Schlüsselmodellausgabe sind, Transformationen der abhängigen Variablen Y-Hat durchgeführt werdenunterliegen einem potenziell signifikanten Retransformations-Bias. Beachten Sie, dass natürliche logarithmische Transformationen nicht gegen diese Verzerrung immun sind, sondern nur nicht so stark von ihr beeinflusst werden wie andere, ähnlich wirkende Transformationen. Es gibt Papiere, die Lösungen für diese Tendenz anbieten, aber sie funktionieren wirklich nicht sehr gut. Meiner Meinung nach sind Sie viel sicherer, wenn Sie nicht versuchen, Y zu transformieren und robuste Funktionsformen zu finden, mit denen Sie die ursprüngliche Metrik beibehalten können. Neben dem natürlichen Log gibt es zum Beispiel andere Transformationen, die den Schwanz von verzerrten und kurtotischen Variablen wie dem inversen hyperbolischen Sinus oder Lamberts W komprimieren. Beide Transformationen eignen sich sehr gut zum Generieren symmetrischer PDFs und daher Gauß-ähnlicher Fehler aus schwerwiegenden Informationen. Achten Sie jedoch auf die Verzerrung, wenn Sie versuchen, die Vorhersagen für DV, Y wieder in den ursprünglichen Maßstab zu bringen . Es kann hässlich sein.
quelle
Viele interessante Punkte wurden angesprochen. Ein paar mehr?
1) Ich würde vorschlagen, dass ein weiteres Problem mit der linearen Regression darin besteht, dass die "linke Seite" der Regressionsgleichung E (y) ist: der erwartete Wert. Wenn die Fehlerverteilung nicht symmetrisch ist, sind die Verdienste für die Untersuchung des erwarteten Wertes schwach. Der Erwartungswert ist nicht von zentralem Interesse, wenn die Fehler asymmetrisch sind. Man könnte stattdessen die Quantilregression untersuchen. Dann könnte die Untersuchung des Medians oder anderer Prozentpunkte wert sein, selbst wenn die Fehler asymmetrisch sind.
2) Wenn Sie die Antwortvariable transformieren möchten, möchten Sie möglicherweise eine oder mehrere der erklärenden Variablen mit derselben Funktion transformieren. Wenn man zum Beispiel ein "Endergebnis" als Antwort hat, kann man ein "Basisergebnis" als erklärende Variable haben. Für die Interpretation ist es sinnvoll, die Transformation 'final' und 'baseline' mit derselben Funktion durchzuführen.
3) Das Hauptargument für die Transformation einer erklärenden Variablen liegt häufig in der Linearität der Antwort - Erklärungsbeziehung. Heutzutage kann man andere Optionen wie eingeschränkte kubische Splines oder gebrochene Polynome für die erklärende Variable in Betracht ziehen. Es gibt sicherlich oft eine gewisse Klarheit, ob Linearität gefunden werden kann.
quelle