Ich habe 2 Zeitreihen (beide glatt), die ich überkreuzen möchte, um zu sehen, wie korreliert sie sind.
Ich beabsichtige, den Pearson-Korrelationskoeffizienten zu verwenden. Ist das angebracht
Meine zweite Frage ist, dass ich die 2 Zeitreihen so probieren kann, wie es mir gefällt. dh ich kann wählen, wie viele Datenpunkte ich uns geben möchte. Beeinflusst dies den ausgegebenen Korrelationskoeffizienten? Muss ich das berücksichtigen?
Zur Veranschaulichung
option(i)
[1, 4, 7, 10] & [6, 9, 6, 9, 6]
option(ii)
[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]
time-series
correlation
pearson-r
smoothing
user1551817
quelle
quelle
Antworten:
Die Pearson-Korrelation wird verwendet, um die Korrelation zwischen Reihen zu untersuchen. Als Zeitreihe wird die Korrelation jedoch über verschiedene Verzögerungen hinweg betrachtet - die Kreuzkorrelationsfunktion .
Die Kreuzkorrelation wird durch die Abhängigkeit innerhalb der Reihen beeinflusst, daher sollte in vielen Fällen die Abhängigkeit innerhalb der Reihen zuerst beseitigt werden. Um diese Korrelation zu verwenden, anstatt die Reihe zu glätten , ist es tatsächlich üblicher (weil es sinnvoll ist), die Abhängigkeit zwischen Residuen zu untersuchen - der grobe Teil, der übrig bleibt, nachdem ein geeignetes Modell für die Variablen gefunden wurde.
Sie möchten wahrscheinlich mit einigen grundlegenden Ressourcen zu Zeitreihenmodellen beginnen, bevor Sie herausfinden, ob eine Pearson-Korrelation über (vermutlich) nichtstationäre, geglättete Reihen interpretierbar ist.
Insbesondere möchten Sie sich hier wahrscheinlich mit dem Phänomen befassen . [In Zeitreihen wird dies manchmal als falsche Korrelation bezeichnet , obwohl der Wikipedia-Artikel über falsche Korrelation die Verwendung des Begriffs in einer Weise einschränkt, die diese Verwendung des Begriffs auszuschließen scheint. Sie werden wahrscheinlich mehr zu den hier diskutierten Themen finden, indem Sie stattdessen nach falscher Regression suchen .]
[Bearbeiten - die Wikipedia-Landschaft ändert sich ständig; der obige Abs. sollte wahrscheinlich überarbeitet werden, um zu reflektieren, was jetzt da ist.]
zB siehe einige Diskussionen
http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (das Eröffnungszitat von Yule in einem Artikel aus dem Jahr 1925, der jedoch im folgenden Jahr veröffentlicht wurde, fasst das Problem recht gut zusammen)
Christos Agiakloglou und Apostolos Tsimpanos, Scheinkorrelationen für stationären AR (1) Verarbeitet http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (dies zeigt , dass Sie auch bekommen können das Problem zwischen stationären Reihen; daher die Tendenz, vorzuhellen)
Die oben erwähnte klassische Referenz von Yule (1926) [1].
Sie können die Diskussion hier auch nützlich finden, ebenso wie die Diskussion hier
-
Die sinnvolle Verwendung der Pearson-Korrelation zwischen Zeitreihen ist schwierig und manchmal überraschend subtil.
Beachten Sie meinen vorherigen Kommentar zur engen Verwendung des Begriffs "falsche Korrelation" im Wikipedia-Artikel.
Der Punkt über falsche Korrelation ist, dass Reihen korreliert erscheinen können, aber die Korrelation selbst ist nicht aussagekräftig. Stellen Sie sich zwei Personen vor, die zwei verschiedene Münzen werfen, die die Anzahl der Köpfe bis jetzt abzüglich der Anzahl der Schwänze bis zu dem Wert ihrer Serie zählen.
Offensichtlich gibt es keinen Zusammenhang zwischen den beiden Serien. Offensichtlich weder können Sie das erste , was über die anderen sagen!
Aber schauen Sie sich die Art der Korrelationen an, die Sie zwischen Paaren von Münzen erhalten:
Wenn ich Ihnen nicht sagen würde, was das ist, und Sie ein Paar dieser Serien für sich genommen hätten, wären das beeindruckende Zusammenhänge, nicht wahr?
Aber sie sind alle bedeutungslos . Äußerst falsch. Keines der drei Paare ist wirklich positiver oder negativer miteinander verwandt als eines der anderen - es ist nur kumuliertes Rauschen . Bei der Fälschung geht es nicht nur um Vorhersagen, der ganze Gedanke , die Assoziation zwischen Serien zu betrachten, ohne die Abhängigkeit innerhalb der Serien zu berücksichtigen, ist falsch.
Alles, was Sie hier haben, ist die Abhängigkeit innerhalb der Serie . Es gibt überhaupt keine tatsächliche serienübergreifende Beziehung.
Wenn Sie das Problem, durch das diese Serien automatisch abhängig werden, richtig gelöst haben - sie sind alle integriert ( Bernoulli Random Walks ), und Sie müssen sie unterscheiden -, verschwindet die "scheinbare" Assoziation (die größte absolute serienübergreifende Korrelation der drei ist 0,048).
Was das sagt, ist die Wahrheit - die scheinbare Assoziation ist eine bloße Illusion, die durch die Abhängigkeit innerhalb der Reihen verursacht wird.
Ihre Frage lautete "Wie man die Pearson-Korrelation richtig mit Zeitreihen verwendet" - bitte haben Sie Verständnis dafür: Wenn es eine Abhängigkeit innerhalb der Reihe gibt und Sie sich nicht zuerst damit befassen, werden Sie sie nicht richtig verwenden.
Darüber hinaus wird durch das Glätten das Problem der seriellen Abhängigkeit nicht verringert. ganz im Gegenteil - es macht es noch schlimmer! Hier sind die Korrelationen nach dem Glätten (Standard Lößglatt - von Serie vs. Index - durchgeführt in R):
Sie sind alle weiter von 0 entfernt. Sie sind immer noch nichts als bedeutungsloses Rauschen , obwohl es jetzt geglättetes, kumuliertes Rauschen ist. (Durch Glätten reduzieren wir die Variabilität in der Reihe, die wir in die Korrelationsberechnung einfließen lassen, sodass möglicherweise die Korrelation steigt.)
[1]: Yule, GU (1926) "Warum bekommen wir manchmal Unsinn-Korrelationen zwischen Zeitreihen?" J.Roy.Stat.Soc. , 89 , 1 , pp. 1-63
quelle
Stellen Sie sich außerdem vor, dass zwei Zeitreihen stark voneinander abhängig sind, z. B. sich zusammen nach oben und unten bewegen, während die eine mitunter starken Schwankungen unterliegt und die andere immer leichte Schwankungen aufweist sind bessere Schätzungen der Abhängigkeit zwischen Ihren Zeitreihen).
Um dies gründlich zu behandeln und Abhängigkeiten besser zu verstehen, können Sie sich die Copula-Theorie und eine Anwendung auf Zeitreihen ansehen .
quelle
Zeitreihendaten sind in der Regel zeitabhängig. Die Pearson-Korrelation ist jedoch für unabhängige Daten geeignet. Dieses Problem ähnelt der sogenannten unechten Regression. Es ist wahrscheinlich, dass der Koeffizient hoch signifikant ist, dies kommt jedoch nur vom Zeittrend der Daten, die beide Reihen betreffen. Ich empfehle, die Daten zu modellieren und dann zu prüfen, ob die Modellierung für beide Serien ähnliche Ergebnisse liefert. Die Verwendung des Pearson-Korrelationskoeffizienten führt jedoch höchstwahrscheinlich zu irreführenden Ergebnissen bei der Interpretation der Abhängigkeitsstruktur.
quelle