Angenommen, ich habe einige historische Daten, z. B. vergangene Aktienkurse, Flugpreisschwankungen, vergangene Finanzdaten des Unternehmens ...
Jetzt kommt jemand (oder eine Formel) und sagt "Lass uns das Protokoll der Distribution nehmen / benutzen" und hier ist, wohin ich gehe WARUM ?
Fragen:
- WARUM sollte man überhaupt das Verteilungsprotokoll führen?
- WAS gibt / vereinfacht das Protokoll der Distribution, das die ursprüngliche Distribution nicht konnte / nicht konnte?
- Ist die Protokolltransformation "verlustfrei"? Dh, gelten bei der Transformation in den Protokollbereich und der Analyse der Daten dieselben Schlussfolgerungen für die ursprüngliche Verteilung? Woher?
- Und zuletzt, WANN, um das Protokoll der Verteilung zu nehmen? Unter welchen Bedingungen entscheidet man sich dafür?
Ich wollte logbasierte Verteilungen wirklich verstehen (zum Beispiel lognormal), aber ich habe nie verstanden, wann / warum Aspekte - dh das Protokoll der Verteilung ist eine normale Verteilung, na und? Was sagt mir das überhaupt und warum? Daher die Frage!
UPDATE : Gemäß @ whubers Kommentar habe ich mir die Posts angesehen und aus irgendeinem Grund verstehe ich die Verwendung von Log-Transformationen und ihre Anwendung in der linearen Regression, da Sie eine Beziehung zwischen der unabhängigen Variablen und dem Log der abhängigen Variablen zeichnen können. Meine Frage ist jedoch generisch im Sinne einer Analyse der Verteilung selbst - es gibt keine Beziehung an sich, aus der ich schließen kann, um den Grund für die Aufnahme von Protokollen zur Analyse einer Verteilung zu verstehen. Ich hoffe, ich mache Sinn: - /
In der Regressionsanalyse haben Sie Einschränkungen hinsichtlich Typ / Anpassung / Verteilung der Daten, und Sie können sie transformieren und eine Beziehung zwischen der unabhängigen und der (nicht transformierten) abhängigen Variablen definieren. Aber wann / warum sollte man das für eine isolierte Verteilung tun, bei der Einschränkungen von Typ / Passung / Verteilung nicht unbedingt in einem Framework (wie der Regression) anwendbar sind? Ich hoffe die Klarstellung macht die Dinge klarer als verwirrend :)
Diese Frage verdient eine klare Antwort in Bezug auf "WARUM und WANN".
Antworten:
Wenn Sie eine Modellform annehmen, die nicht linear ist, aber in ein lineares Modell wie werden kann, ist es gerechtfertigt, Logarithmen von zu verwenden, um die angegebene Modellform zu erfüllen. Unabhängig davon, ob Sie kausale Reihen haben oder nicht, ist die einzige Zeit, in der Sie berechtigt oder korrekt wären, das Protokoll von wenn nachgewiesen werden kann, dass die Varianz von proportional zum erwarteten Wert vonlogY=β0+β1t Y Y Y Y2 . Ich erinnere mich nicht an die ursprüngliche Quelle für das Folgende, aber sie fasst die Rolle von Machttransformationen gut zusammen. Es ist wichtig zu beachten, dass sich die Verteilungsannahmen immer auf den Fehlerprozess und nicht auf das beobachtete Y beziehen. Daher ist es ein eindeutiges "Nein-Nein", die ursprüngliche Reihe auf eine geeignete Transformation hin zu analysieren, es sei denn, die Reihe ist durch eine einfache Konstante definiert.
Unberechtigte oder inkorrekte Transformationen, einschließlich Differenzen, sollten sorgfältig vermieden werden, da sie oft ein unmoderner / schlecht durchdachter Versuch sind, mit nicht identifizierten Anomalien / Pegelverschiebungen / Zeittrends oder Änderungen von Parametern oder Änderungen der Fehlervarianz umzugehen. Ein klassisches Beispiel hierfür finden Sie ab Folie 60 hier unter http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_download/53-capabilities-presentation ( unbehandelt) führten zu einer ungerechtfertigten logarithmischen Transformation durch frühe Forscher. Leider machen einige unserer derzeitigen Forscher immer noch den gleichen Fehler.
Die optimale Leistung Transformation wird über den gefundenen Box-Cox - Test , wo
Beachten Sie, dass, wenn Sie keine Prädiktor- / Kausal- / Unterstützungs-Eingabereihen haben, das Modell und dass keine Anforderungen an die Verteilung von ABER für , den Fehlerprozess. In diesem Fall werden die Verteilungsanforderungen für direkt an . Wenn Sie unterstützende Reihen haben, z. B. in einer Regression oder in einem Modell mit autoregressivem gleitendem Durchschnitt und exogenen Eingaben ( ARMAX-Modell ), beziehen sich die Verteilungsannahmen auf und haben überhaupt nichts mit der Verteilung von zu tun . Somit würde man im Falle eines ARIMA-Modells oder eines ARMAX-Modells niemals eine Transformation annehmenYt=u+at Y at at Yt at Yt Y vor dem Finden der optimalen Box-Cox-Transformation, die dann das Heilmittel (Transformation) für vorschlagen würde . In früheren Zeiten haben einige Analysten sowohl als auch mutmaßlich transformiert , um über die prozentuale Änderung von als Ergebnis der prozentualen Änderung von nachdenken zu können, indem sie den Regressionskoeffizienten zwischen und . Zusammenfassend sind Transformationen wie Drogen, manche sind gut und manche schlecht für Sie! Sie sollten nur bei Bedarf und dann mit Vorsicht verwendet werden.Y Y X Y X logY logX
quelle
Die logarithmische Skala informiert über relative Änderungen (multiplikativ), während die lineare Skala über absolute Änderungen (additiv) informiert. Wann benutzt du jeden? Wenn Sie sich für relative Änderungen interessieren, verwenden Sie die Protokollskala. Wenn Sie sich für absolute Änderungen interessieren, verwenden Sie die lineare Skala. Dies gilt für Verteilungen, aber auch für Mengen oder Mengenänderungen.
Beachten Sie, dass ich das Wort "Pflege" hier sehr spezifisch und absichtlich verwende. Ohne ein Modell oder ein Ziel kann Ihre Frage nicht beantwortet werden. Das Modell oder Ziel definiert, welcher Maßstab wichtig ist. Wenn Sie versuchen, etwas zu modellieren, und der Mechanismus über eine relative Änderung erfolgt, ist die Protokollskala entscheidend, um das in Ihren Daten festgestellte Verhalten zu erfassen. Wenn der Mechanismus des zugrunde liegenden Modells jedoch additiv ist, sollten Sie die lineare Skalierung verwenden.
Beispiel. Börse .$ $ $
Lager A an Tag 1: 100. An Tag 2: 101. Jeder Lagerverfolgungsservice der Welt meldet diese Änderung auf zwei Arten! (1) + 1. (2) + 1%. Das erste ist ein Maß für die absolute additive Änderung; der zweite ein Maß für die relative Veränderung.
Darstellung der relativen Veränderung gegenüber der absoluten Veränderung: Die relative Veränderung ist die gleiche, die absolute Veränderung ist unterschiedlich. Die$ $ $ $
Aktie A geht von 1 auf 1,10. Stock B geht von 100 bis 110.
Aktie A legte um 10% zu, Aktie B um 10% (relative Skala, gleich)$
... aber Aktie A legte um 10 Cent zu, während Aktie B 10 zulegte ( Aktie B legte 10 Dollar zu)
Wenn wir in Protokollspeicher konvertieren, werden relative Änderungen als absolute Änderungen angezeigt.
Lager A reicht von bis = 0 bis .0413 Lager B reicht von bis = 2 bis 2,0413log10($1) log10($1.10)
log10($100) log10($110)
Betrachtet man nun den absoluten Unterschied im Protokollbereich , stellt man fest, dass sich beide um .0413 geändert haben.
Beide Maßstäbe der Veränderung sind wichtig, und welcher für Sie von Bedeutung ist, hängt ausschließlich von Ihrem Investitionsmodell ab. Es gibt zwei Modelle. (1) Anlage eines festen Kapitalbetrags oder (2) Anlage in eine feste Anzahl von Aktien.
Modell 1: Investieren mit einem festen Kapitalbetrag.
Sagen wir, Lager A kostet 1 pro Aktie und Lager B kostet 100 pro Aktie. Heute sind sie beide gingen von einem Dollar bis zu 2 und jeweils 101. Ihre absolute Veränderung ist identisch ( 1), aber ihre relative Veränderung ist dramatisch unterschiedlich (100% für A, 1% für B). Vorausgesetzt, Sie haben einen festen Kapitalbetrag zu investieren, sagen wir 100 , können Sie sich nur eine Aktie von B oder 100 Aktien von A leisten. Wenn Sie gestern investiert hätten, hätten Sie 200 mit A oder 101 mit B. Hier "kümmern" Sie sich also um die relativen Gewinne, insbesondere weil Sie eine begrenzte Menge an Kapital haben.$ $ $ $ $ $ $ $
Modell 2: feste Anzahl Aktien.
Nehmen Sie in einem anderen Szenario an, Ihre Bank lässt den Kauf nur in Blöcken von 100 Aktien zu und Sie haben beschlossen, in 100 Aktien von A oder B zu investieren. Im vorherigen Fall ist der Gewinn beim Kauf von A oder B der gleiche ( 100 - dh $ 1 für jede Aktie).$
Angenommen, wir stellen uns einen Aktienwert als zufällige Variable vor, die im Laufe der Zeit schwankt, und möchten ein Modell entwickeln, das das allgemeine Verhalten von Aktien widerspiegelt. Nehmen wir an, wir möchten mit diesem Modell den Gewinn maximieren. Wir berechnen eine Wahrscheinlichkeitsverteilung, deren x-Werte in Einheiten des 'Aktienkurses' und deren y-Werte in Wahrscheinlichkeiten zur Beobachtung eines bestimmten Aktienkurses angegeben sind. Wir tun dies für Aktie A und Aktie B. Wenn Sie das erste Szenario abonnieren, in dem Sie einen festen Kapitalbetrag investieren möchten, ist es informativ, das Protokoll dieser Ausschüttungen zu führen. Warum? Was Sie interessiert, ist die Form der Verteilung im relativen Raum. Ob eine Aktie von 1 bis 10 oder 10 bis 100 geht, ist Ihnen egal, oder? Beide Fälle sind 10- fachrelativer Gewinn. Dies erscheint natürlich in einer logarithmischen Verteilung, bei der die Einheitsgewinne den direkten Fold-Gewinnen entsprechen. Für zwei Bestände, deren Mittelwert unterschiedlich ist, deren relative Änderung jedoch identisch verteilt ist (sie haben die gleiche Verteilung der täglichen prozentualen Änderungen), sind ihre logarithmischen Verteilungen in ihrer Form identisch , nur verschoben. Umgekehrt werden ihre linearen Verteilungen keine identische Form haben, wobei die höherwertige Verteilung eine höhere Varianz aufweist.
Wenn Sie die gleichen Verteilungen im linearen oder absoluten Bereich betrachten, würden Sie denken, dass höherwertige Aktienkurse größeren Schwankungen entsprechen. Für Ihre Anlagezwecke, bei denen nur relative Gewinne von Bedeutung sind, gilt dies jedoch nicht unbedingt.
Beispiel 2. Chemische Reaktionen. Angenommen, wir haben zwei Moleküle A und B, die eine reversible Reaktion eingehen.
was durch die einzelnen Geschwindigkeitskonstanten definiert ist
( ) ( )kab A⇒B kba B⇒A
Ihr Gleichgewicht wird durch die Beziehung definiert:
Zwei Punkte hier. (1) Dies ist ein multiplikatives Verhältnis zwischen den Konzentrationen von und . (2) Diese Beziehung ist nicht willkürlich, sondern ergibt sich direkt aus den grundlegenden physikalisch-chemischen Eigenschaften, die Moleküle steuern, die ineinander stoßen und reagieren.A B
Nehmen wir nun an, wir haben eine gewisse Verteilung der Konzentration von A oder B. Der geeignete Maßstab für diese Verteilung ist der logarithmische Raum, da das Modell, wie sich eine der Konzentrationen ändert, multiplikativ definiert wird (das Produkt der Konzentration von A mit dem Kehrwert der Konzentration von B). In einem alternativen Universum, in dem , können wir diese Konzentrationsverteilung im absoluten linearen Raum betrachten.K∗=kab−kba=[A]−[B]
Das heißt, wenn Sie ein Modell haben, sei es für die Börsenvorhersage oder die chemische Kinetik, können Sie immer "verlustfrei" zwischen linearem und logarithmischem Raum umwandeln, solange Ihr Wertebereich . Ob Sie sich für die lineare oder logarithmische Verteilung entscheiden, hängt davon ab, was Sie aus den Daten abrufen möchten.(0,inf)
BEARBEITEN . Eine interessante Parallele, die mir beim Aufbau der Intuition geholfen hat, ist das Beispiel von arithmetischen und geometrischen Mitteln. Ein arithmetischer Mittelwert (Vanille-Mittelwert) berechnet den Durchschnitt von Zahlen unter der Annahme eines verborgenen Modells, bei dem es auf absolute Unterschiede ankommt. Beispiel. Das arithmetische Mittel von 1 und 100 beträgt 50,5. Nehmen wir an, wir sprechen über Konzentrationen, bei denen die chemische Beziehung zwischen Konzentrationen multiplikativ ist. Dann sollte die durchschnittliche Konzentration wirklich auf der logarithmischen Skala berechnet werden. Dies nennt man den geometrischen Durchschnitt. Der geometrische Durchschnitt von 1 und 100 ist 10! In Bezug auf relative Unterschiede ist dies sinnvoll: 10/1 = 10 und 100/10 = 10, dh die relative Änderung zwischen dem Mittelwert und zwei Werten ist gleich. Additiv finden wir das Gleiche; 50,5-1 = 49,5 und 100-50,5 = 49,5.
quelle