Warum sollten Sie protokollierte Variablen verwenden?

12

Wahrscheinlich ist dies eine sehr grundlegende Frage, aber ich bin nicht in der Lage, eine solide Antwort darauf zu finden. Ich hoffe hier kann ich.

Ich lese gerade Artikel als Vorbereitung für meine eigene Masterarbeit. Derzeit lese ich einen Artikel, der die Beziehung zwischen Tweets und Börsenmerkmalen untersucht.

In einer ihrer Hypothesen schlagen sie vor, dass "ein erhöhtes Tweet-Volumen mit einem Anstieg des Handelsvolumens verbunden ist".

Ich würde sie in den paarweise Korrelationen rechnen korrelieren tweetVolumemit tradingVolume, sondern sie Bericht mit der Version protokollierte: LN(tweetVolume)und LN(tradingVolume).

Für meine Diplomarbeit habe ich dieses Stück ihres Papiers repliziert. Ich habe Tweets über 100 Unternehmen für mehr als 6 Monate ( tweetVolume) und Aktienhandelsvolumen für den gleichen Zeitraum gesammelt . Wenn ich die absoluten Variablen korreliere, finde ich, r=.282, p.000aber wenn ich die protokollierten Versionen verwende, finde ich r=.488, p=.000.

Ich verstehe nicht, warum Forscher manchmal protokollierte Versionen ihrer Variablen verwenden und warum die Korrelation so viel höher erscheint, wenn Sie dies tun. Was ist der Grund dafür und warum ist es in Ordnung, protokollierte Variablen zu verwenden?

Ihre Hilfe wird gerne in Anspruch genommen :-)

Pr0no
quelle
1
Wenn Sie die verwandten Themen unten rechts auf der Seite sehen, wurde die Verwendung von Logarithmen einige Male zuvor behandelt. Siehe insbesondere : Wann ist es bei der linearen Regression angebracht, das Protokoll einer unabhängigen Variablen anstelle der tatsächlichen Werte zu verwenden? .
Andy W

Antworten:

24

Die Gründe für die Verwendung protokollierter Variablen lassen sich in zwei Kategorien einteilen: statistische und inhaltliche.

Statistisch gesehen kann eine Kennzahl wie Korrelation oder Regression, wenn Ihre Variablen recht schief sind (dh am oberen Ende einen langen Schwanz haben), stark durch einen oder mehrere Fälle am oberen Ende von einem oder beiden beeinflusst werden Variablen (Ausreißer, Hebelpunkte, Einflusspunkte). Das Aufnehmen des Protokolls kann dabei helfen, indem der Versatz verringert oder beseitigt wird.

Im Wesentlichen sind einige Konzepte in Bezug auf Verhältnisse besser zu verstehen als Unterschiede. Nehmen Sie die beiden Volumenmaße, die Sie besprechen. Vergleichen Sie nun zwei Unternehmen: Eines ist ein kleines Unternehmen, das an der NASDAQ notiert, von dem nur wenige gehört haben, und das andere ein Mega-Unternehmen. Ersterer erhält sehr wenige Tweets pro Tag. Letzteres wird viele bekommen; Ähnliches gilt für das Handelsvolumen. Nehmen wir an (um nur Zahlen auszuwählen), dass Unternehmen A normalerweise 100 Tweets pro Tag erhält und letzteres 100.000.

Wenn die Tweets von Unternehmen A von 100 auf 500 steigen (ein Unterschied von 400, ein Verhältnis von 5), ist das eine große Neuigkeit - es muss etwas los sein. Aber wenn Unternehmen B von 100.000 auf 100.400 steigt (ein Unterschied von 400, ein Verhältnis, das sehr nahe an 1 liegt), kümmert es niemanden. Das grobe Äquivalent wäre, wenn es von 100.000 auf 500.000 steigen würde.

Peter Flom - Wiedereinsetzung von Monica
quelle
Danke für ihre schnelle Antwort. Zwei weitere Fragen ergeben sich aus Ihrer Antwort. Erstens, wenn ich 3 Eigenschaften für ein Objekt habe (Aktienhandelsvolumen, Rendite und Volatilität) und die protokollierte Version für eine davon nehme? Was Sie für die Tweets von Unternehmen A und B sagen, kann auch für deren Rendite gelten: Wenn die Aktie von Unternehmen A von 1 auf 1,50 steigt, beträgt die Rendite (50%) 0,50. Unternehmen B benötigt eine Erhöhung von 400 auf 600 (200) für eine ähnliche prozentuale Rendite. Und daraus folgt: Wenn die Renditen negativ sind, funktioniert LN (-0,50) offensichtlich nicht. Darf man dann -LN (0.50) nehmen?
Pr0no
Wenn ich das richtig verstehe, ist es auch keine freie Wahl, die protokollierte Variable zu nehmen - sie muss durch Skweness-Charts (statistisch) argumentiert werden? Und im Grunde ist das nur eine logische Begründung für die Aufnahme von Logs, die tatsächlich proff dafür liefern? Mit anderen Worten, gibt es hier Faustregeln, die Grenzwerte definieren, oberhalb derer Sie die protokollierte Version verwenden sollten, oder handelt es sich um eine Interpretationssache?
Pr0no
1
In diesem Fall möchten Sie keine Prozentsätze protokollieren: Wenn Sie den Prozentsatz verwenden, entspricht dies dem Protokoll. Das heißt, es macht Dinge Verhältnisse. Natürlich können Sie einige Variablen protokollieren und andere nicht. Für die Erstellung des Protokolls sind keine Versatzdiagramme erforderlich. Normalerweise handelt es sich bei den zu protokollierenden Variablen jedoch um Versatzdiagramme. Aber die Hauptsache ist , Substanz . Wenn es inhaltlich keinen Sinn ergibt, das Protokoll zu führen, tun Sie es nicht. Verwenden Sie stattdessen statistische Methoden, die mit verzerrten Variablen arbeiten. Der Stoff steht an erster Stelle.
Peter Flom - Wiedereinsetzung von Monica