So verwenden Sie die Pearson-Korrelation korrekt mit Zeitreihen

47

Ich habe 2 Zeitreihen (beide glatt), die ich überkreuzen möchte, um zu sehen, wie korreliert sie sind.

Ich beabsichtige, den Pearson-Korrelationskoeffizienten zu verwenden. Ist das angebracht

Meine zweite Frage ist, dass ich die 2 Zeitreihen so probieren kann, wie es mir gefällt. dh ich kann wählen, wie viele Datenpunkte ich uns geben möchte. Beeinflusst dies den ausgegebenen Korrelationskoeffizienten? Muss ich das berücksichtigen?

Zur Veranschaulichung

option(i)

[1,    4,    7,    10] & [6,    9,    6,    9,    6]

option(ii)

[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]  
user1551817
quelle
1
Was ist die Natur von Zeitreihen? Sind sie zufällig zu Fuß? Stationär? Wirtschaftsreihe?
Aksakal,

Antworten:

72

Die Pearson-Korrelation wird verwendet, um die Korrelation zwischen Reihen zu untersuchen. Als Zeitreihe wird die Korrelation jedoch über verschiedene Verzögerungen hinweg betrachtet - die Kreuzkorrelationsfunktion .

Die Kreuzkorrelation wird durch die Abhängigkeit innerhalb der Reihen beeinflusst, daher sollte in vielen Fällen die Abhängigkeit innerhalb der Reihen zuerst beseitigt werden. Um diese Korrelation zu verwenden, anstatt die Reihe zu glätten , ist es tatsächlich üblicher (weil es sinnvoll ist), die Abhängigkeit zwischen Residuen zu untersuchen - der grobe Teil, der übrig bleibt, nachdem ein geeignetes Modell für die Variablen gefunden wurde.

Sie möchten wahrscheinlich mit einigen grundlegenden Ressourcen zu Zeitreihenmodellen beginnen, bevor Sie herausfinden, ob eine Pearson-Korrelation über (vermutlich) nichtstationäre, geglättete Reihen interpretierbar ist.

Insbesondere möchten Sie sich hier wahrscheinlich mit dem Phänomen befassen . [In Zeitreihen wird dies manchmal als falsche Korrelation bezeichnet , obwohl der Wikipedia-Artikel über falsche Korrelation die Verwendung des Begriffs in einer Weise einschränkt, die diese Verwendung des Begriffs auszuschließen scheint. Sie werden wahrscheinlich mehr zu den hier diskutierten Themen finden, indem Sie stattdessen nach falscher Regression suchen .]

[Bearbeiten - die Wikipedia-Landschaft ändert sich ständig; der obige Abs. sollte wahrscheinlich überarbeitet werden, um zu reflektieren, was jetzt da ist.]

zB siehe einige Diskussionen

  1. http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (das Eröffnungszitat von Yule in einem Artikel aus dem Jahr 1925, der jedoch im folgenden Jahr veröffentlicht wurde, fasst das Problem recht gut zusammen)

  2. Christos Agiakloglou und Apostolos Tsimpanos, Scheinkorrelationen für stationären AR (1) Verarbeitet http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (dies zeigt , dass Sie auch bekommen können das Problem zwischen stationären Reihen; daher die Tendenz, vorzuhellen)

  3. Die oben erwähnte klassische Referenz von Yule (1926) [1].

Sie können die Diskussion hier auch nützlich finden, ebenso wie die Diskussion hier

-

Die sinnvolle Verwendung der Pearson-Korrelation zwischen Zeitreihen ist schwierig und manchmal überraschend subtil.


Ich habe nach einer falschen Korrelation gesucht, aber es ist mir egal, ob meine A-Serie die Ursache für meine B-Serie ist oder umgekehrt. Ich möchte nur wissen, ob Sie etwas über Serie A lernen können, indem Sie sich ansehen, was Serie B tut (oder umgekehrt). Mit anderen Worten - haben sie eine Korrelation.

Beachten Sie meinen vorherigen Kommentar zur engen Verwendung des Begriffs "falsche Korrelation" im Wikipedia-Artikel.

Der Punkt über falsche Korrelation ist, dass Reihen korreliert erscheinen können, aber die Korrelation selbst ist nicht aussagekräftig. Stellen Sie sich zwei Personen vor, die zwei verschiedene Münzen werfen, die die Anzahl der Köpfe bis jetzt abzüglich der Anzahl der Schwänze bis zu dem Wert ihrer Serie zählen.

HTHH...1,0,1,2,...

Offensichtlich gibt es keinen Zusammenhang zwischen den beiden Serien. Offensichtlich weder können Sie das erste , was über die anderen sagen!

Aber schauen Sie sich die Art der Korrelationen an, die Sie zwischen Paaren von Münzen erhalten:

Bildbeschreibung hier eingeben

Wenn ich Ihnen nicht sagen würde, was das ist, und Sie ein Paar dieser Serien für sich genommen hätten, wären das beeindruckende Zusammenhänge, nicht wahr?

Aber sie sind alle bedeutungslos . Äußerst falsch. Keines der drei Paare ist wirklich positiver oder negativer miteinander verwandt als eines der anderen - es ist nur kumuliertes Rauschen . Bei der Fälschung geht es nicht nur um Vorhersagen, der ganze Gedanke , die Assoziation zwischen Serien zu betrachten, ohne die Abhängigkeit innerhalb der Serien zu berücksichtigen, ist falsch.

Alles, was Sie hier haben, ist die Abhängigkeit innerhalb der Serie . Es gibt überhaupt keine tatsächliche serienübergreifende Beziehung.

Wenn Sie das Problem, durch das diese Serien automatisch abhängig werden, richtig gelöst haben - sie sind alle integriert ( Bernoulli Random Walks ), und Sie müssen sie unterscheiden -, verschwindet die "scheinbare" Assoziation (die größte absolute serienübergreifende Korrelation der drei ist 0,048).

Was das sagt, ist die Wahrheit - die scheinbare Assoziation ist eine bloße Illusion, die durch die Abhängigkeit innerhalb der Reihen verursacht wird.

Ihre Frage lautete "Wie man die Pearson-Korrelation richtig mit Zeitreihen verwendet" - bitte haben Sie Verständnis dafür: Wenn es eine Abhängigkeit innerhalb der Reihe gibt und Sie sich nicht zuerst damit befassen, werden Sie sie nicht richtig verwenden.

Darüber hinaus wird durch das Glätten das Problem der seriellen Abhängigkeit nicht verringert. ganz im Gegenteil - es macht es noch schlimmer! Hier sind die Korrelationen nach dem Glätten (Standard Lößglatt - von Serie vs. Index - durchgeführt in R):

            coin1      coin2     
coin2   0.9696378 
coin3  -0.8829326 -0.7733559 

Sie sind alle weiter von 0 entfernt. Sie sind immer noch nichts als bedeutungsloses Rauschen , obwohl es jetzt geglättetes, kumuliertes Rauschen ist. (Durch Glätten reduzieren wir die Variabilität in der Reihe, die wir in die Korrelationsberechnung einfließen lassen, sodass möglicherweise die Korrelation steigt.)

[1]: Yule, GU (1926) "Warum bekommen wir manchmal Unsinn-Korrelationen zwischen Zeitreihen?" J.Roy.Stat.Soc. , 89 , 1 , pp. 1-63

Glen_b
quelle
Vielen Dank für die tolle Antwort. Ich habe nach einer falschen Korrelation gesucht, aber es ist mir egal, ob meine A-Serie die Ursache für meine B-Serie ist oder umgekehrt. Ich möchte nur wissen, ob Sie etwas über Serie A lernen können, indem Sie sich ansehen, was Serie B tut (oder umgekehrt). Mit anderen Worten - haben sie eine Korrelation.
user1551817
Bitte sehen Sie meine aktualisierte Antwort.
Glen_b
2
"..so musst du sie unterscheiden .." was bedeutet das genau? Vielleicht unterscheiden sie? ..
Georgios Pligoropoulos
1
Differenzierung - siehe Wikipedia hier oder diesen Abschnitt des Buches Forecasting, Principles and Practice . Auf Ihre nachfolgende Frage bezieht sich der Rest des Absatzes, den Sie zitieren, ausdrücklich darauf. (Es ist jedoch nicht die einzige Möglichkeit, nur eine einigermaßen häufige Sache zu beschreiben, die getan wird)
Glen_b
1
Ich habe eine andere Version des Papiers gefunden und Titel und Autoren hinzugefügt
Glen_b
6

(St)1tTXt=StSt1), die (bei zufälligen Spaziergängen) unabhängig und gleich verteilt sind. Ich schlage vor, die Spearman-Korrelation oder die Kendall-Korrelation zu verwenden, da sie robuster sind als der Pearson-Koeffizient. Pearson misst die lineare Abhängigkeit, während das Spearman- und das Kendall-Maß durch monotone Transformationen Ihrer Variablen unveränderlich sind.

Stellen Sie sich außerdem vor, dass zwei Zeitreihen stark voneinander abhängig sind, z. B. sich zusammen nach oben und unten bewegen, während die eine mitunter starken Schwankungen unterliegt und die andere immer leichte Schwankungen aufweist sind bessere Schätzungen der Abhängigkeit zwischen Ihren Zeitreihen).

Um dies gründlich zu behandeln und Abhängigkeiten besser zu verstehen, können Sie sich die Copula-Theorie und eine Anwendung auf Zeitreihen ansehen .

mic
quelle
4

Zeitreihendaten sind in der Regel zeitabhängig. Die Pearson-Korrelation ist jedoch für unabhängige Daten geeignet. Dieses Problem ähnelt der sogenannten unechten Regression. Es ist wahrscheinlich, dass der Koeffizient hoch signifikant ist, dies kommt jedoch nur vom Zeittrend der Daten, die beide Reihen betreffen. Ich empfehle, die Daten zu modellieren und dann zu prüfen, ob die Modellierung für beide Serien ähnliche Ergebnisse liefert. Die Verwendung des Pearson-Korrelationskoeffizienten führt jedoch höchstwahrscheinlich zu irreführenden Ergebnissen bei der Interpretation der Abhängigkeitsstruktur.

zufälliger Typ
quelle