Wahrscheinlich ist dies eine sehr grundlegende Frage, aber ich bin nicht in der Lage, eine solide Antwort darauf zu finden. Ich hoffe hier kann ich.
Ich lese gerade Artikel als Vorbereitung für meine eigene Masterarbeit. Derzeit lese ich einen Artikel, der die Beziehung zwischen Tweets und Börsenmerkmalen untersucht.
In einer ihrer Hypothesen schlagen sie vor, dass "ein erhöhtes Tweet-Volumen mit einem Anstieg des Handelsvolumens verbunden ist".
Ich würde sie in den paarweise Korrelationen rechnen korrelieren tweetVolume
mit tradingVolume
, sondern sie Bericht mit der Version protokollierte: LN(tweetVolume)
und LN(tradingVolume)
.
Für meine Diplomarbeit habe ich dieses Stück ihres Papiers repliziert. Ich habe Tweets über 100 Unternehmen für mehr als 6 Monate ( tweetVolume
) und Aktienhandelsvolumen für den gleichen Zeitraum gesammelt . Wenn ich die absoluten Variablen korreliere, finde ich, r=.282, p.000
aber wenn ich die protokollierten Versionen verwende, finde ich r=.488, p=.000
.
Ich verstehe nicht, warum Forscher manchmal protokollierte Versionen ihrer Variablen verwenden und warum die Korrelation so viel höher erscheint, wenn Sie dies tun. Was ist der Grund dafür und warum ist es in Ordnung, protokollierte Variablen zu verwenden?
Ihre Hilfe wird gerne in Anspruch genommen :-)
Antworten:
Die Gründe für die Verwendung protokollierter Variablen lassen sich in zwei Kategorien einteilen: statistische und inhaltliche.
Statistisch gesehen kann eine Kennzahl wie Korrelation oder Regression, wenn Ihre Variablen recht schief sind (dh am oberen Ende einen langen Schwanz haben), stark durch einen oder mehrere Fälle am oberen Ende von einem oder beiden beeinflusst werden Variablen (Ausreißer, Hebelpunkte, Einflusspunkte). Das Aufnehmen des Protokolls kann dabei helfen, indem der Versatz verringert oder beseitigt wird.
Im Wesentlichen sind einige Konzepte in Bezug auf Verhältnisse besser zu verstehen als Unterschiede. Nehmen Sie die beiden Volumenmaße, die Sie besprechen. Vergleichen Sie nun zwei Unternehmen: Eines ist ein kleines Unternehmen, das an der NASDAQ notiert, von dem nur wenige gehört haben, und das andere ein Mega-Unternehmen. Ersterer erhält sehr wenige Tweets pro Tag. Letzteres wird viele bekommen; Ähnliches gilt für das Handelsvolumen. Nehmen wir an (um nur Zahlen auszuwählen), dass Unternehmen A normalerweise 100 Tweets pro Tag erhält und letzteres 100.000.
Wenn die Tweets von Unternehmen A von 100 auf 500 steigen (ein Unterschied von 400, ein Verhältnis von 5), ist das eine große Neuigkeit - es muss etwas los sein. Aber wenn Unternehmen B von 100.000 auf 100.400 steigt (ein Unterschied von 400, ein Verhältnis, das sehr nahe an 1 liegt), kümmert es niemanden. Das grobe Äquivalent wäre, wenn es von 100.000 auf 500.000 steigen würde.
quelle