Ich habe beobachtet, dass der Absolutwert des Pearson-Korrelationskoeffizienten im Durchschnitt für jedes Paar unabhängiger zufälliger Spaziergänge eine Konstante nahe ist , unabhängig von der Länge des Spaziergangs.0.56
0.42
Kann jemand dieses Phänomen erklären?
Ich erwartete, dass die Korrelationen kleiner werden, wenn die Gehlänge zunimmt, wie bei jeder zufälligen Sequenz.
Für meine Experimente verwendete ich zufällige Gaußsche Gänge mit dem Schrittmittelwert 0 und der Schrittstandardabweichung 1.
AKTUALISIEREN:
Ich habe vergessen, die Daten zu zentrieren, deshalb war es 0.56
statt 0.42
.
Hier ist das Python-Skript zur Berechnung der Korrelationen:
import numpy as np
from itertools import combinations, accumulate
import random
def compute(length, count, seed, center=True):
random.seed(seed)
basis = []
for _i in range(count):
walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) )))
if center:
walk -= np.mean(walk)
basis.append(walk / np.sqrt(np.dot(walk, walk)))
return np.mean([ abs(np.dot(x, y)) for x, y in combinations(basis, 2) ])
print(compute(10000, 1000, 123))
Antworten:
Ihre eigenständigen Prozesse sind nicht korreliert! Ob und Y t unabhängige Zufallsspaziergänge sind:Xt Yt
Intuitiv könnte man (falsch) vermuten, dass:
Das Problem ist, dass keine dieser Aussagen für zufällige Spaziergänge zutrifft! (Sie gelten für besser verhaltene Prozesse.)
Für instationäre Prozesse:
Die Probleme bei einem zufälligen Spaziergang?
Wenn Sie verschiedene Beobachtungen von zwei unabhängigen Zufallsläufen über die Zeit haben (z. B. , X 2 usw. und Y 1 , Y 2 usw. ) und den Probenkorrelationskoeffizienten berechnen, erhalten Sie eine Zahl zwischen - 1 undX1 X2 Y1 Y2 −1 . Es ist jedoch keine Annäherung an den Populationskorrelationskoeffizienten (der nicht existiert).1
Stattdessen ρ X Y ( T ) (berechnete Zeitreihenmittelwerte unter Verwendung von t = 1 bis t = T ) wird , um im wesentlichen eine Zufallsvariable (mit Werten in [ - 1 , 1 ] ) , die reflektiert die zwei bestimmte Pfade Die zufälligen Spaziergänge erfolgten zufällig (dh die Pfade, die durch die Zeichnung ω definiert sind, die aus dem Probenraum Ω gezogen wurde ).ρ^XY(T) t=1 t=T [−1,1] ω Ω
Sie können mit den Begriffen mehr darüber googeln
spurious regression random walk
.Eine zufällige Wanderung ist nicht stationär und die Ermittlung von Durchschnittswerten über die Zeit konvergiert nicht mit dem, was Sie erhalten würden, wenn Sie iid-Draws ω aus dem Probenraum Ω nehmen . Wie in den obigen Kommentaren erwähnt, können Sie erste Differenzen Δ x t = x t - x t - 1 nehmen, und für einen zufälligen Gang ist dieser Prozess { Δ x t } stationär.t ω Ω Δxt=xt−xt−1 {Δxt}
Große Bildidee:
Mehrfachbeobachtungen über einen bestimmten Zeitraum sind NICHT dasselbe wie Mehrfachentnahmen aus einem Probenraum!
Es sei daran erinnert, dass ein diskreter zeitstochastischer Prozess eine Funktion sowohl der Zeit ( t ∈ N ) als auch eines Abtastraums Ω ist{Xt} t∈N Ω .
Für Mittelwerte über die Zeit , die über einen Probenraum Ω den Erwartungen entsprechen sollen , sind Stationarität und Ergodizität erforderlich . Dies ist ein zentrales Thema in vielen Zeitreihenanalysen. Und ein Random-Walk ist kein stationärer Prozess.t Ω
Verbindung zu Whubers Antwort:
Wenn Sie Mittelwerte über mehrere Simulationen ziehen können (dh mehrere Ziehungen von ), anstatt gezwungen zu sein, Mittelwerte über die Zeit t zu ziehenΩ t verschwinden einige Ihrer Probleme.
Selbstverständlich können Sie definieren ρ X Y ( t ) als die Probe Korrelationskoeffizient berechnet wird auf X 1 ... X T und Y 1 ... Y tρ^XY(t) X1…Xt Y1…Yt und dies wird auch ein stochastischer Prozess sein.
Sie können eine Zufallsvariable wie folgt definieren :Zt
Für zwei zufällige Spaziergänge, die bei mit N ( 0 , 1 ) Schritten beginnen, ist es einfach, E [ Z 10000 ] durch Simulation zu finden (dh mehrere Ziehungen von Ω zu machen)0 N(0,1) E[Z10000] Ω ).
Unten habe ich eine Simulation von 10.000 Berechnungen eines Pearson-Korrelationskoeffizienten durchgeführt. Jedes Mal wenn ich:
Das folgende Histogramm zeigt die empirische Verteilung über die 10000 berechneten Korrelationskoeffizienten.
Man kann deutlich beobachten , dass der Zufallsvariable ρ X Y ( 10000 ) überall im Intervall sein kann [ - 1 , 1 ] . Für zwei feste Pfade von X und Y konvergiert der Probenkorrelationskoeffizient mit zunehmender Länge der Zeitreihe nicht gegen irgendetwas.ρ^XY(10000) [−1,1] X Y
Auf der anderen Seite, für eine bestimmte Zeit (z. B.t=10,000 ), wird die Probe Korrelationskoeffizient eine Zufallsvariable mit einer endlichen Mittelwert etc ... Wenn ich nehme den Absolutwert berechnen und den Mittelwert über alle Simulationen, Ich berechne ungefähr 0,42. Ich bin mir nicht sicher, warum Sie dies tun wollen oder warum dies überhaupt sinnvoll ist, aber natürlich können Sie.
Code:
quelle
Die Mathematik, die benötigt wird, um ein genaues Ergebnis zu erhalten, ist kompliziert, aber wir können einen genauen Wert für den erwarteten quadratischen Korrelationskoeffizienten relativ schmerzlos ableiten . Es hilft erklären , warum ein Wert nahe hält zeigt und warum die Länge zu erhöhen n der Irrfahrt nicht die Dinge ändern.1/2 n
Es besteht die Gefahr von Verwirrung über Standardbegriffe. Die absolute Korrelation, auf die in der Frage Bezug genommen wird, sowie die Statistiken, die sie ausmachen - Varianzen und Kovarianzen -, sind Formeln , die man auf jedes Paar von Realisierungen von Zufallsläufen anwenden kann . Die Frage ist, was passiert, wenn wir uns viele unabhängige Erkenntnisse ansehen. Dafür müssen wir Erwartungen über den Zufalls-Walk-Prozess stellen.
(Bearbeiten)
Bevor wir fortfahren, möchte ich Ihnen einige grafische Einblicke geben. Ein Paar unabhängiger zufälliger Spaziergänge ist ein zufälliger Spaziergang in zwei Dimensionen. Wir können den Pfad zeichnen, der von jedem ( X t , Y t ) zu X t + 1 , Y t + 1 verläuft . Wenn dieser Pfad nach unten tendiert (von links nach rechts, auf den üblichen XY-Achsen aufgetragen) , müssen alle Y- Werte negiert werden, um den absoluten Wert der Korrelation zu untersuchen . Zeichnen Sie die Pfade auf Achsen, deren Größe dem X und entspricht(X,Y) (Xt,Yt) Xt+1,Yt+1 Y X - Werte gleich Standardabweichungen und überlagern die kleinsten Quadrate von Y zu X . Die Steigungen dieser Linien sind die absoluten Werte der Korrelationskoeffizienten, die immer zwischen 0 und 1 liegen .Y Y X 0 1
Diese Abbildung zeigt solcher Wanderungen mit einer Länge von jeweils 960 (mit normalen Standardunterschieden). Kleine offene Kreise markieren ihre Startpunkte. Dunkle Kreise markieren ihre endgültigen Positionen.15 960
Diese Hänge sind in der Regel ziemlich groß. Perfekt zufällige Streudiagramme dieser vielen Punkte hätten immer Steigungen nahe Null. Wenn wir die hier auftretenden Muster beschreiben müssten, könnten wir sagen, dass die meisten 2D-Irrwege allmählich von einem Ort zum anderen wandern. (Dies sind jedoch nicht unbedingt ihre Start- und Endpunkte!) In etwa der Hälfte der Fälle erfolgt diese Wanderung in diagonaler Richtung - und die Steigung ist dementsprechend hoch.
Der Rest dieses Beitrags skizziert eine Analyse dieser Situation.
Eine gute Möglichkeit, diesen Wert zu berechnen, besteht darin, den halben Durchschnitt aller quadrierten Differenzen zu berechnen:
Die Differenzen sind Summen von iid-Variablen,
Daraus folgt leicht
Obwohl dies nicht konstant ist, nähert es sich schnell einem Grenzwert von9 / 40 . Seine Quadratwurzel, ungefähr0,47 nähert sich daher dem erwarteten absoluten Wert vonρ ( n ) (Und unterschätzt es).
Ich bin sicher, dass ich Rechenfehler gemacht habe, aber Simulationen bestätigen die asymptotische Genauigkeit. In den folgenden Ergebnissen werden die Histogramme vonρ2( n ) zum 1000 Bei jeder Simulation zeigen die vertikalen roten Linien den Mittelwert, während die gestrichelten blauen Linien den Wert der Formel anzeigen. Klar ist es falsch, aber asymptotisch ist es richtig. Offensichtlich die gesamte Verbreitung vonρ2( n ) nähert sich einer Grenze als n steigt. Ebenso die Verteilung von| ρ(n) | (das ist die Menge des Interesses) wird sich einem Limit nähern.
Dies ist der
R
Code, um die Figur zu erzeugen.quelle