Geht die Korrelation von einer Stationarität der Daten aus?

27

Die Inter-Market-Analyse ist eine Methode zur Modellierung des Marktverhaltens durch Auffinden von Beziehungen zwischen verschiedenen Märkten. Häufig wird eine Korrelation zwischen zwei Märkten berechnet, z. B. S & P 500 und 30-jährigen US-Treasuries. Diese Berechnungen basieren zumeist auf Preisdaten, was für jedermann offensichtlich ist, dass sie nicht zur Definition von stationären Zeitreihen passen.

Abgesehen von möglichen Lösungen (stattdessen Rückgaben verwenden) ist die Berechnung der Korrelation, deren Daten nicht stationär sind, sogar eine gültige statistische Berechnung?

Würden Sie sagen, dass eine solche Korrelationsberechnung etwas unzuverlässig oder einfach nur Unsinn ist?

Milktrader
quelle
1
Was meinst du mit "gültiger statistischer Berechnung"? Hier ist das Etwas sehr wichtig. Die Korrelation ist eine gültige Berechnung der linearen Beziehung zwischen zwei Datensätzen. Ich verstehe nicht, warum Sie Stationarität brauchen. Meinten Sie Autokorrelation?
Robin Girard
2
Es gibt eine neue Website, die möglicherweise besser zu Ihrer Frage passt : quant.stackexchange.com . Jetzt verwechseln Sie Berechnung und Interpretation eindeutig.
mpiktas
@mpiktas, die Quant-Community verwendet Renditen im Vergleich zu Preisen aufgrund der Stationarität der Renditen und der Nichtstationarität der Preise. Ich bitte hier um etwas mehr als eine intuitive Erklärung, warum dies so sein sollte.
Milktrader
@robin, es gibt verschiedene Dinge, die Sie zu einer statistischen Analyse veranlassen können. Die Stichprobengröße fällt mir ebenso ein wie offensichtliche Dinge wie manipulierte Daten. Wird durch die Nichtstationarität der Daten eine Korrelationsberechnung in Frage gestellt?
Milktrader
Nicht die Berechnung, vielleicht die Interpretation, wenn die Korrelation nicht hoch ist. Wenn es hoch ist, bedeutet es eine hohe Korrelation (dh eine hohe lineare Beziehung), und zwei nichtstationäre Zeitreihen, nämlich und ( Y t ), können möglicherweise stark korreliert sein (zum Beispiel, wenn X t = Y t .(Xt)(Yt)Xt=Yt
Robin Girard,

Antworten:

37

Die Korrelation misst die lineare Beziehung. Im informellen Kontext bedeutet Beziehung etwas Stabiles. Wenn wir die Probenkorrelation für stationäre Variablen berechnen und die Anzahl der verfügbaren Datenpunkte erhöhen, tendiert diese Probenkorrelation zur wahren Korrelation.

Es kann gezeigt werden, dass bei Preisen, bei denen es sich in der Regel um Zufallsbewegungen handelt, die Stichprobenkorrelation eher zu Zufallsvariablen tendiert. Dies bedeutet, dass das Ergebnis immer unterschiedlich ist, egal wie viele Daten wir haben.

Anmerkung Ich habe versucht, mathematische Intuition ohne Mathematik auszudrücken. Aus mathematischer Sicht ist die Erklärung sehr klar: Stichprobenmomente von stationären Prozessen konvergieren mit hoher Wahrscheinlichkeit zu Konstanten. Beispielmomente von Zufallsläufen konvergieren zu Integralen der Brownschen Bewegung, die Zufallsvariablen sind. Da die Beziehung normalerweise als Zahl und nicht als Zufallsvariable ausgedrückt wird, wird der Grund für die Nichtberechnung der Korrelation für nicht stationäre Variablen offensichtlich.

Update Da wir an der Korrelation zweier Variablen interessiert sind, nehmen wir zunächst an, dass sie aus dem stationären Prozess . Stationarität impliziert, dass E Z t und c o v ( Z t , Z t - h ) nicht von t abhängen . Also KorrelationZt=(Xt,Yt)EZtcOv(Zt,Zt-h)t

cOrr(Xt,Y.t)=cOv(Xt,Y.t)DXtDY.t

hängt auch nicht von , da alle Größen in der Formel aus der Matrix c o v ( Z t ) stammen , die nicht von t abhängt . Also die Berechnung der ProbenkorrelationtcOv(Zt)t

macht Sinn, da wir begründete Hoffnung haben könnendassProbe Korrelation abschätzen wirdρ=corr(Xt,Yt). Es stellt sich herausdass diese Hoffnung nicht unbegründet ist, da für stationäre Prozesse erfüllen bestimmte Bedingungen wir diese haben& rgr;

ρ^=1Tt=1T(Xt-X¯)(Y.t-Y.¯)1T2t=1T(Xt-X¯)2t=1T(Y.t-Y.¯)2
ρ=corr(Xt,Yt) , wie T in Wahrscheinlichkeit. Außerdemρ^ρTinVerteilung, so dass wir die Hypothesen über testenρ.T(ρ^ρ)N(0,σρ2)ρ

Nehmen wir nun an, dass nicht stationär ist. Dann c o r r ( X t , Y t ) kann davon abhängen , t . Wenn wir also eine Stichprobe der Größe T beobachten, müssen wir möglicherweise T verschiedene Korrelationen ρ t abschätzen . Dies ist natürlich nicht möglich, daher können wir im besten Fall nur einige Funktionen von ρ t abschätzen, wie den Mittelwert oder die Varianz. Aber das Ergebnis kann nicht sinnvoll interpretiert werden.ZtcOrr(Xt,Y.t)tTTρtρt

Lassen Sie uns nun untersuchen, was mit der Korrelation des wahrscheinlich am häufigsten untersuchten instationären Prozess-Random-Walks geschieht. Wir nennen Prozess eine Zufallsbewegung, wenn Z t = Σ t s = 1 ( U t , V t ) , wobei C t = ( U t , V t ) ist ein stationärer Vorgang. Der Einfachheit halber sei E C t = 0 . DannZt=(Xt,Y.t)Zt=s=1t(Ut,Vt)Ct=(Ut,Vt)ECt=0

corr(XtYt)=EXtYtDXtDYt=Es=1tUts=1tVtDs=1tUtDs=1tVt

Zur weiteren Vereinfachung sei angenommen, dass ein weißes Rauschen ist. Dies bedeutet, dass alle Korrelationen E ( C t C t + h ) für h > 0 Null sind . Man beachte , dass dies nicht einschränkt c o r r ( U t , V t ) auf Null zurück .Ct=(Ut,Vt)E(CtCt+h)h>0corr(Ut,Vt)

Dann

corr(Xt,Yt)=tEUtVtt2DUtDVt=corr(U0,V0).

So weit so gut, obwohl der Prozess nicht stationär ist, ist die Korrelation sinnvoll, obwohl wir dieselben restriktiven Annahmen treffen mussten.

Um nun zu sehen, was mit der Stichprobenkorrelation geschieht, müssen wir die folgende Tatsache über Zufallsbewegungen verwenden, die als funktionaler zentraler Grenzwertsatz bezeichnet wird:

inVerteilung, wobeis[0,1]undWs=(W1s,W2s)ist eine bivariateBrownsche Bewegung(zweidimensionaler Wiener-Prozess). Der Einfachheit halber Definition einführen

1TZ[Ts]=1Tt=1[Ts]Ct(cov(C0))1/2Ws,
s[0,1]Ws=(W1s,W2s)Ms=(M1s,M2s)=(cov(C0))1/2Ws.

Again for simplicity let us define sample correlation as

ρ^=1Tt=1TXtYt1Tt=1TXt21Tt=1TYt2

Let us start with the variances. We have

E1Tt=1TXt2=1TEt=1T(s=1tUt)2=1Tt=1TtσU2=σUT+12.

This goes to infinity as T increases, so we hit the first problem, sample variance does not converge. On the other hand continuous mapping theorem in conjunction with functional central limit theorem gives us

1T2t=1TXt2=t=1T1T(1Ts=1tUt)201M1s2ds
where convergence is convergence in distribution, as T.

Similarly we get

1T2t=1TYt201M2s2ds
and
1T2t=1TXtYt01M1sM2sds

So finally for sample correlation of our random walk we get

ρ^01M1sM2sds01M1s2ds01M2s2ds
in distribution as T.

So although correlation is well defined, sample correlation does not converge towards it, as in stationary process case. Instead it converges to a certain random variable.

mpiktas
quelle
1
The mathematical point of view explanation is what I was looking for. It gives me something to contemplate and explore further. Thanks.
Milktrader
1
This response seems to sidestep the original question: Aren't you just saying that yes, calculating correlation makes sense for stationary processes?
whuber
1
@whuber, I was answering the question having in mind the comment, but I reread the question again and as far as I understand the OP asks about calculation of correlation for non-stationary data. Calculation of correlation for stationary processes makes sense, all the macroeconometric analysis (VAR, VECM) relies on that.
mpiktas
Ich werde versuchen, meine Frage mit einer Antwort zu klären.
Whuber
3
@whuber my take away from the answer is that a correlation based on non-stationary data yields a random variable, which may or may not be useful. Correlation based on stationary data converges to a constant. This may explain why traders are attracted to "x-day rolling correlation" because the correlated behavior is fleeting and spurious. Whether "x-day rolling correlation" is valid or useful is for another question.
Milktrader
13

...is the computation of correlation whose data is non-stationary even a valid statistical calculation?

Let W be a discrete random walk. Pick a positive number h. Define the processes P and V by P(0)=1, P(t+1)=P(t) if V(t)>h, and otherwise P(t+1)=P(t); and V(t)=P(t)W(t). In other words, V starts out identical to W but every time V rises above h, it switches signs (otherwise emulating W in all respects).

enter image description here

(In this figure (for h=5) W is blue and V is red. There are four switches in sign.)

In effect, over short periods of time V tends to be either perfectly correlated with W or perfectly anticorrelated with it; however, using a correlation function to describe the relationship between V and W wouldn't be useful (a word that perhaps more aptly captures the problem than "unreliable" or "nonsense").

Mathematica code to produce the figure:

With[{h=5},
pv[{p_, v_}, w_] := With[{q=If[v > h, -p, p]}, {q, q w}];
w = Accumulate[RandomInteger[{-1,1}, 25 h^2]];
{p,v} = FoldList[pv, {1,0}, w] // Transpose;
ListPlot[{w,v}, Joined->True]]
whuber
quelle
it is good that your answer points that out but I wouldn't say the process are correlated, I would say they are dependent. This is the point. Calculation of correlation is valide and here it will say "no correlation" and we all know this does not mean "no dependence".
robin girard
1
@robin That's a good point, but I constructed this example specifically so that for potentially long periods of time these two processes are perfectly correlated. The issue is not one of dependence versus correlation but inherently is related to a subtler phenomenon: that the relationship between the processes changes at random periods. That, in a nutshell, is exactly what can happen in real markets (or at least we ought to worry that it can happen!).
whuber
@whubert yes, and this is a very good example showing that there are processes that have very high correlation for potentially long periods of time and still are not correlated at all (but highly dependent) when regarding the larger temporal scale.
robin girard
2
@robin girard, I think the key here is that for non-stationary processes the theoretical correlation varies with time, when for the stationary processes theoretical correlation stays the same. So with sample correlation which basically is one number, it is impossible to capture the variation of true correlations in case of non-stationary processes.
mpiktas