Warum sind zufällige Spaziergänge miteinander korreliert?

27

Ich habe beobachtet, dass der Absolutwert des Pearson-Korrelationskoeffizienten im Durchschnitt für jedes Paar unabhängiger zufälliger Spaziergänge eine Konstante nahe ist , unabhängig von der Länge des Spaziergangs.0.560.42

Kann jemand dieses Phänomen erklären?

Ich erwartete, dass die Korrelationen kleiner werden, wenn die Gehlänge zunimmt, wie bei jeder zufälligen Sequenz.

Für meine Experimente verwendete ich zufällige Gaußsche Gänge mit dem Schrittmittelwert 0 und der Schrittstandardabweichung 1.

AKTUALISIEREN:

Ich habe vergessen, die Daten zu zentrieren, deshalb war es 0.56statt 0.42.

Hier ist das Python-Skript zur Berechnung der Korrelationen:

import numpy as np
from itertools import combinations, accumulate
import random

def compute(length, count, seed, center=True):
    random.seed(seed)
    basis = []
    for _i in range(count):
        walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) )))
        if center:
            walk -= np.mean(walk)
        basis.append(walk / np.sqrt(np.dot(walk, walk)))
    return np.mean([ abs(np.dot(x, y)) for x, y in combinations(basis, 2) ])

print(compute(10000, 1000, 123))
Adam
quelle
Mein erster Gedanke ist, dass es mit zunehmender Länge möglich ist, Werte mit größerer Größe zu erhalten, und die Korrelation nimmt zu.
John Paul
Aber das würde mit jeder zufälligen Sequenz funktionieren, wenn ich Sie richtig verstehe, aber nur die zufälligen Spaziergänge haben diese konstante Korrelation.
Adam
4
Dies ist nicht irgendeine "Zufallssequenz": Die Korrelationen sind extrem hoch, da jeder Term nur einen Schritt von dem vorhergehenden entfernt ist. Beachten Sie auch, dass der Korrelationskoeffizient, den Sie berechnen, nicht der der beteiligten Zufallsvariablen ist: Es handelt sich um einen Korrelationskoeffizienten für die Sequenzen (einfach als gepaarte Daten betrachtet), der eine große Formel mit verschiedenen Quadraten und Differenzen von allen ergibt Begriffe in der Reihenfolge.
whuber
10
Sprechen Sie über Korrelationen zwischen zufälligen Wanderungen (über Serien hinweg, nicht innerhalb einer Serie)? Wenn ja, liegt es daran, dass Ihre unabhängigen zufälligen Wanderungen integriert, aber nicht integriert sind. Dies ist eine bekannte Situation, in der falsche Korrelationen auftreten.
Chris Haug
8
Wenn Sie einen ersten Unterschied machen, finden Sie keine Korrelation. Der Mangel an Stationarität ist hier der Schlüssel.
Paul

Antworten:

24

Ihre eigenständigen Prozesse sind nicht korreliert! Ob und Y t unabhängige Zufallsspaziergänge sind:XtYt

  • Ein zeitlich unbedingter Korrelationskoeffizient existiert nicht. (Sprich nicht darüber .)Corr(X,Y)
  • Für jeden Zeitpunkt , Corr (t tatsächlich 0.Corr(Xt,Yt)
  • Aber Stichprobenstatistiken, die auf Zeitreihen- Durchschnittswerten basieren, werden zu nichts konvergieren! Der von Ihnen berechnete Probenkorrelationskoeffizient, der auf der Mittelung mehrerer Beobachtungen über die Zeit basiert, ist bedeutungslos.

Intuitiv könnte man (falsch) vermuten, dass:

  1. Die Unabhängigkeit zwischen zwei Prozessen und { Y t } impliziert, dass sie keine Korrelation aufweisen. (Für zwei zufällige Spaziergänge, Corr{Xt}{Yt} nicht.)Corr(X,Y)
  2. Die Zeitreihe, Proben Korrelation ρ X Y (dh die Korrelationskoeffizienten berechnet , unter Verwendung von Zeitserien, Muster Statistiken wie ^ μ Xρ^XY) konvergiert auf den PopulationskorrelationskoeffizientenρXYalsT.μX^=1Tτ=1TXτρXYT

Das Problem ist, dass keine dieser Aussagen für zufällige Spaziergänge zutrifft! (Sie gelten für besser verhaltene Prozesse.)

Für instationäre Prozesse:

  • Sie können über die Korrelation zwischen den Prozessen und { Y t } zu zwei bestimmten Zeitpunkten sprechen (z. B. ist Corr ( X 2 , Y 3 ) eine absolut vernünftige Aussage.){Xt}{Yt}Corr(X2,Y3)
  • Es macht jedoch keinen Sinn, über die Korrelation zwischen den beiden Serien ohne zeitliche Einschränkungen zu sprechen! hat keine genau definierte Bedeutung.Corr(X,Y)

Die Probleme bei einem zufälligen Spaziergang?

  1. Für einen Zufallsspaziergang existieren keine bedingungslosen Populationsmomente (dh, die nicht von der Zeit abhängen ) wie E [ X ] . (In gewissem Sinne sind sie unendlich.) In ähnlicher Weise ist der unbedingte Korrelationskoeffizient ρ X Y zwischen zwei unabhängigen Zufallsläufen nicht Null; es existiert tatsächlich nicht!tE[X]ρXY
  2. Die Annahmen der Ergodensätze gelten nicht und verschiedene Zeitreihenmittelwerte (z. B. )konvergierennichtgegen irgendetwas alsT. 1TτXτT
    • Bei einer stationären Sequenz konvergiert der Zeitreihenmittelwert schließlich mit dem zeitlich unbedingten Mittelwert. Aber für eine instationäre Sequenz gibt es keinen Mittelwert, der pünktlich ist!

Wenn Sie verschiedene Beobachtungen von zwei unabhängigen Zufallsläufen über die Zeit haben (z. B. , X 2 usw. und Y 1 , Y 2 usw. ) und den Probenkorrelationskoeffizienten berechnen, erhalten Sie eine Zahl zwischen - 1 undX1X2Y1Y21 . Es ist jedoch keine Annäherung an den Populationskorrelationskoeffizienten (der nicht existiert).1

Stattdessen ρ X Y ( T ) (berechnete Zeitreihenmittelwerte unter Verwendung von t = 1 bis t = T ) wird , um im wesentlichen eine Zufallsvariable (mit Werten in [ - 1 , 1 ] ) , die reflektiert die zwei bestimmte Pfade Die zufälligen Spaziergänge erfolgten zufällig (dh die Pfade, die durch die Zeichnung ω definiert sind, die aus dem Probenraum Ω gezogen wurde ).ρ^XY(T)t=1t=T[1,1]ωΩ

  • Wenn sowohl als auch Y t in die gleiche Richtung abwandern, stellen Sie eine falsche positive Beziehung fest.XtYt
  • Wenn und YXt in unterschiedliche Richtungen abgewandert sind, stellen Sie eine falsche negative Beziehung fest.Yt
  • Wenn und Y tXtYt genug überlagern, stellen Sie eine Beziehung nahe Null fest.

Sie können mit den Begriffen mehr darüber googeln spurious regression random walk.

Eine zufällige Wanderung ist nicht stationär und die Ermittlung von Durchschnittswerten über die Zeit konvergiert nicht mit dem, was Sie erhalten würden, wenn Sie iid-Draws ω aus dem Probenraum Ω nehmen . Wie in den obigen Kommentaren erwähnt, können Sie erste Differenzen Δ x t = x t - x t - 1 nehmen, und für einen zufälligen Gang ist dieser Prozess { Δ x t } stationär.tωΩΔxt=xtxt1{Δxt}

Große Bildidee:

Mehrfachbeobachtungen über einen bestimmten Zeitraum sind NICHT dasselbe wie Mehrfachentnahmen aus einem Probenraum!

Es sei daran erinnert, dass ein diskreter zeitstochastischer Prozess eine Funktion sowohl der Zeit ( t N ) als auch eines Abtastraums Ω ist{Xt}tNΩ .

Für Mittelwerte über die Zeit , die über einen Probenraum Ω den Erwartungen entsprechen sollen , sind Stationarität und Ergodizität erforderlich . Dies ist ein zentrales Thema in vielen Zeitreihenanalysen. Und ein Random-Walk ist kein stationärer Prozess.tΩ

Verbindung zu Whubers Antwort:

Wenn Sie Mittelwerte über mehrere Simulationen ziehen können (dh mehrere Ziehungen von ), anstatt gezwungen zu sein, Mittelwerte über die Zeit t zu ziehenΩt verschwinden einige Ihrer Probleme.

Selbstverständlich können Sie definieren ρ X Y ( t ) als die Probe Korrelationskoeffizient berechnet wird auf X 1 ... X T und Y 1 ... Y tρ^XY(t)X1XtY1Yt und dies wird auch ein stochastischer Prozess sein.

Sie können eine Zufallsvariable wie folgt definieren :Zt

Zt=|ρ^XY(t)|

Für zwei zufällige Spaziergänge, die bei mit N ( 0 , 1 ) Schritten beginnen, ist es einfach, E [ Z 10000 ] durch Simulation zu finden (dh mehrere Ziehungen von Ω zu machen)0N(0,1)E[Z10000]Ω ).

Unten habe ich eine Simulation von 10.000 Berechnungen eines Pearson-Korrelationskoeffizienten durchgeführt. Jedes Mal wenn ich:

  • Simulierte zwei zufällige Wanderungen von 10.000 Länge (mit normalverteilten Inkrementen, die aus N(0,1) ).
  • Berechnete den Probenkorrelationskoeffizienten zwischen ihnen.

Das folgende Histogramm zeigt die empirische Verteilung über die 10000 berechneten Korrelationskoeffizienten.

Bildbeschreibung hier eingeben

Man kann deutlich beobachten , dass der Zufallsvariable ρ X Y ( 10000 ) überall im Intervall sein kann [ - 1 , 1 ] . Für zwei feste Pfade von X und Y konvergiert der Probenkorrelationskoeffizient mit zunehmender Länge der Zeitreihe nicht gegen irgendetwas.ρ^XY(10000)[1,1]XY

Auf der anderen Seite, für eine bestimmte Zeit (z. B. t=10,000 ), wird die Probe Korrelationskoeffizient eine Zufallsvariable mit einer endlichen Mittelwert etc ... Wenn ich nehme den Absolutwert berechnen und den Mittelwert über alle Simulationen, Ich berechne ungefähr 0,42. Ich bin mir nicht sicher, warum Sie dies tun wollen oder warum dies überhaupt sinnvoll ist, aber natürlich können Sie.

Code:

for i=1:10000 
  X = randn(10000,2); 
  Y = cumsum(X); 
  z(i) = corr(Y(:,1), Y(:,2));
end;
histogram(z,20);
mean(abs(z))
Matthew Gunn
quelle
Da die Stichprobengröße offensichtlich nicht endlich ist, sind Ihre Aussagen zu verschiedenen Mengen, die nicht existieren, rätselhaft. Es ist schwer zu erkennen, wie sich Ihre Symbole auf die vom OP beschriebene Situation auswirken.
Whuber
Ihre Stichprobengröße geht NIEMALS ins Unendliche! Nicht solange Sie Samples mit einem Computer zeichnen ( nur in reiner Mathematik können Sie solche Annahmen treffen ). Und was bedeutet das: Weil Sie unendlich viele Punkte haben, konvergiert es nicht? Wo hast du das gelesen?
Mayou36
@whuber Hoffentlich ist diese Version etwas übersichtlicher. Ich gehe davon aus, dass das OP fragt, warum der Probenkorrelationskoeffizient (basierend auf Zeitreihen-Durchschnittswerten) zwischen zwei endlichen Segmenten von Zufallsläufen nicht Null ist, selbst für Zeitreihen von immenser Länge. Ein grundlegendes Problem besteht darin, dass für einen zufälligen Spaziergang keine verschiedenen Bevölkerungsmomente existieren und Zeitreihenmittelwerte zu nichts konvergieren.
Matthew Gunn
Trotzdem ist für festes alles endlich. Darüber hinaus ist die Erwartung des absoluten Probenkorrelationskoeffizient macht konvergieren n erhöht! Beachten Sie auch, dass sich die Frage auf den absoluten Wert dieses Koeffizienten bezieht. Ihre Erwartung ist (offensichtlich) Null. nn
whuber
1
@whuber Meinst du für feste Zeitreihenlänge , alles ist endlich? (Ja, dem stimme ich zu.) Die Erwartung der Probenkorrelation ist null (Ja, dem stimme ich zu). Wenn t jedoch zunimmt, konvergiert die Probenkorrelation nicht an einem einzelnen Punkt. Für zwei zufällige Gangsegmente beliebiger Länge ist der Stichprobenkorrelationskoeffizient von der Gleichverteilung auf [0, 1] nicht so weit entfernt (siehe Histogramm). tt
Matthew Gunn
15

Die Mathematik, die benötigt wird, um ein genaues Ergebnis zu erhalten, ist kompliziert, aber wir können einen genauen Wert für den erwarteten quadratischen Korrelationskoeffizienten relativ schmerzlos ableiten . Es hilft erklären , warum ein Wert nahe hält zeigt und warum die Länge zu erhöhen n der Irrfahrt nicht die Dinge ändern.1/2n

Es besteht die Gefahr von Verwirrung über Standardbegriffe. Die absolute Korrelation, auf die in der Frage Bezug genommen wird, sowie die Statistiken, die sie ausmachen - Varianzen und Kovarianzen -, sind Formeln , die man auf jedes Paar von Realisierungen von Zufallsläufen anwenden kann . Die Frage ist, was passiert, wenn wir uns viele unabhängige Erkenntnisse ansehen. Dafür müssen wir Erwartungen über den Zufalls-Walk-Prozess stellen.


(Bearbeiten)

Bevor wir fortfahren, möchte ich Ihnen einige grafische Einblicke geben. Ein Paar unabhängiger zufälliger Spaziergänge ist ein zufälliger Spaziergang in zwei Dimensionen. Wir können den Pfad zeichnen, der von jedem ( X t , Y t ) zu X t + 1 , Y t + 1 verläuft . Wenn dieser Pfad nach unten tendiert (von links nach rechts, auf den üblichen XY-Achsen aufgetragen) , müssen alle Y- Werte negiert werden, um den absoluten Wert der Korrelation zu untersuchen . Zeichnen Sie die Pfade auf Achsen, deren Größe dem X und entspricht(X,Y)(Xt,Yt)Xt+1,Yt+1YX - Werte gleich Standardabweichungen und überlagern die kleinsten Quadrate von Y zu X . Die Steigungen dieser Linien sind die absoluten Werte der Korrelationskoeffizienten, die immer zwischen 0 und 1 liegen .YYX01

Diese Abbildung zeigt solcher Wanderungen mit einer Länge von jeweils 960 (mit normalen Standardunterschieden). Kleine offene Kreise markieren ihre Startpunkte. Dunkle Kreise markieren ihre endgültigen Positionen.15960

Figure

Diese Hänge sind in der Regel ziemlich groß. Perfekt zufällige Streudiagramme dieser vielen Punkte hätten immer Steigungen nahe Null. Wenn wir die hier auftretenden Muster beschreiben müssten, könnten wir sagen, dass die meisten 2D-Irrwege allmählich von einem Ort zum anderen wandern. (Dies sind jedoch nicht unbedingt ihre Start- und Endpunkte!) In etwa der Hälfte der Fälle erfolgt diese Wanderung in diagonaler Richtung - und die Steigung ist dementsprechend hoch.

Der Rest dieses Beitrags skizziert eine Analyse dieser Situation.


(Xi)(W1,W2,,Wn)Wiσ2

x=(x1,,xn)

V(x)=1n(xix¯)2.

Eine gute Möglichkeit, diesen Wert zu berechnen, besteht darin, den halben Durchschnitt aller quadrierten Differenzen zu berechnen:

V(x)=1n(n1)j>i(xjxi)2.

xXn

E(V(X))=1n(n1)j>iE(XjXi)2.

Die Differenzen sind Summen von iid-Variablen,

XjXi=Wi+1+Wi+2++Wj.

WkWkσ2

E((Wi+1+Wi+2++Wj2))=(ji)σ2.

Daraus folgt leicht

E(V(X))=1n(n1)j>i(ji)σ2=n+16σ2.

xy

E(C(X,Y)2)=3n62n53n2+2n480n2(n1)2σ4.

XYn

ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n32n2+3n2n3n.

Obwohl dies nicht konstant ist, nähert es sich schnell einem Grenzwert von 9/40. Seine Quadratwurzel, ungefähr0,47nähert sich daher dem erwarteten absoluten Wert vonρ(n) (Und unterschätzt es).


Ich bin sicher, dass ich Rechenfehler gemacht habe, aber Simulationen bestätigen die asymptotische Genauigkeit. In den folgenden Ergebnissen werden die Histogramme vonρ2(n) zum 1000Bei jeder Simulation zeigen die vertikalen roten Linien den Mittelwert, während die gestrichelten blauen Linien den Wert der Formel anzeigen. Klar ist es falsch, aber asymptotisch ist es richtig. Offensichtlich die gesamte Verbreitung vonρ2(n) nähert sich einer Grenze als nsteigt. Ebenso die Verteilung von|ρ(n)| (das ist die Menge des Interesses) wird sich einem Limit nähern.

Figure

Dies ist der RCode, um die Figur zu erzeugen.

f <- function(n){
  m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40 
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
  u <- matrix(rnorm(n*n.sim), nrow=n)
  v <- matrix(rnorm(n*n.sim), nrow=n)
  x <- apply(u, 2, cumsum)
  y <- apply(v, 2, cumsum)
  sim <- rep(NA_real_, n.sim)
  for (i in 1:n.sim)
    sim[i] <- cor(x[,i], y[,i])^2
  z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
  hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
  abline(v=mean(sim), lwd=2, col="Red")
  abline(v=f(n), col="Blue", lwd=2, lty=3)
}
whuber
quelle
My Monte-Carlo simulation based estimate of E[ρ2] for T=100 is about .24 (which appears to agree with your results). I agree with your analysis here. You might be getting at how the OP come to his number (though I calculate about .42, not .56).
Matthew Gunn
If you can take repeated draws from Ω, there's nothing particularly special about time-series analysis. Issues (eg. ergodicity, stationarity etc...) develop when you can only observe new values of X by advancing time t which I assumed was what the OP was trying to get at... (but maybe not).
Matthew Gunn
1
+1 but what is the intuition about why there is this positive asymptotic value 9/40, whereas naively one would expect that if one takes two very long random walks they should have near-zero correlation, i.e. naively one would expect the distribution of correlations to shrink to zero as n grows?
Amöbe sagt Reinstate Monica
@amoeba First, I don't fully believe the value of 9/40, but I know it's close to correct. For the intuition, consider that two independent walks Xt and Yt are a random walk (Xt,Yt) in two dimensions. Take any random scatterplot in 2D and measure its eccentricity somehow. It will be rare for it to be perfectly circular. Thus, we expect the mean eccentricity to be positive. That there is a limiting distribution for random walks merely reflects the self-similar "fractal" nature of this 2D walk.
whuber
2
Eine asymptotische Analyse der hier diskutierten Probleme findet sich in Phillips (1986), Theorem 1e .
Christoph Hanck