Betrachten Sie das folgende Diagramm:
Die rote Linie (linke Achse) beschreibt das Handelsvolumen einer bestimmten Aktie. Die blaue Linie (rechte Achse) beschreibt das Twitter-Nachrichtenvolumen für diese Aktie. Zum Beispiel wurden am 9. Mai (05-09) ungefähr 1.100 Millionen Trades und 4.000 Tweets getätigt.
Ich möchte berechnen, ob es eine Korrelation zwischen den Zeitreihen gibt, entweder am selben Tag oder mit einer Verzögerung - zum Beispiel: Das Tweet-Volumen korreliert mit dem Handelsvolumen einen Tag später. Ich lese viele Artikel, die eine solche Analyse durchgeführt haben, zum Beispiel das Korrelieren von Finanzzeitreihen mit Mikro-Blogging-Aktivitäten , aber sie beschreiben nicht, wie eine solche Analyse in der Praxis durchgeführt wird. Folgendes wird im Artikel angegeben:
Ich habe jedoch nur sehr wenig Erfahrung mit statistischen Analysen und weiß nicht, wie ich diese für die Serie ausführen soll, die ich habe. Ich verwende SPSS (auch als PASW bekannt) und meine Frage lautet: Welche Schritte sind zu unternehmen, um eine solche Analyse ab dem Punkt durchzuführen, an dem dem obigen Bild eine Datendatei zugrunde liegt? Ist ein solcher Test eine Standardfunktion (und wie heißt er) und / oder wie könnte ich ihn sonst ausführen?
Jede Hilfe wäre sehr dankbar :-)
quelle
Antworten:
Zwei Überprüfungen auf bivariate Normalität überprüfen drei Dinge:
Um die Normalität bei jedem dieser Schritte zu überprüfen, verwenden Sie normale qq-Diagramme oder Sie können einen beliebigen Normalitätshypothesentest verwenden.
Alternativ können Sie prüfen, ob jede mögliche Linearkombination (reelle Koeffizienten) der beiden Reihen geringfügig normal ist. Das wäre allerdings wahrscheinlich schwierig.
Bearbeiten: (6 Jahre später) Ich werde das oben für die Nachwelt behalten, aber beachten Sie, dass ich eine neuere Antwort auf eine ähnliche Frage hier habe .
quelle
Der Korrelationskoeffizient zwischen Zeitreihen ist unbrauchbar. Siehe KORRELATIONSKOEFFIZIENT - Kritische Werte für das Testen der Signifikanz . U. Yule wies 1926 erstmals darauf hin. Yule, GU, 1926, "Warum bekommen wir manchmal Unsinnkorrelationen zwischen Zeitreihen? Eine Studie über Stichproben und die Art von Zeitreihen", Journal of the Royal Statistical Society 89, 1 –64 . Vielleicht möchten Sie googeln "Warum bekommen wir Unsinn Korrelation" für mehr.
Der Grund dafür sind Korrelationstests, die eine Gelenknormalität erfordern. Gelenknormalität erfordert, dass jede Serie normal ist. Normalität erfordert Unabhängigkeit. Um die Beziehung zwischen Zeitreihen zu untersuchen, lesen Sie bitte Transfer Function Identification in einem guten Zeitreihenbuch wie Time Series Analysis: Univariate und Multivariate Methods von William WS Wei und David P. Reilly .
Herausforderung Antwort
In Bezug auf eine Antwort auf Ihre Herausforderung. Es ist einigen bekannt ( Yule, GU, 1926 ), dass die Korrelation zweier Zeitreihen fehlerhaft sein kann, insbesondere wenn beide Reihen von Impulsen / Pegelverschiebungen / saisonalen Impulsen und / oder lokalen Zeittrends beeinflusst werden. In diesem Fall würde ich jede der Reihen GETRENNT nehmen und die ARIMA-Struktur und alle Impulse / Pegelverschiebungen / saisonalen Impulse und / oder lokalen Zeittrends identifizieren, die zutreffen und einen Fehlerprozess erzeugen könnten.
Mit zwei sauberen Fehlerprozessen, einem für jede der beiden ursprünglichen Reihen, würde ich die Kreuzkorrelation berechnen, die dann verwendet werden könnte, um den Grad der Assoziation über die autokorrelative Struktur innerhalb jeder Reihe hinaus zu messen. Diese Lösung wird zweckmäßigerweise als doppelter Vorweißungsansatz bezeichnet.
Sehen:
quelle