Die Stichprobenkorrelation und die Stichprobenstandardabweichung von (nenne es ) scheinen positiv korreliert zu sein, wenn ich bivariates normales , mit einer positiven wahren Korrelation simuliere (und scheinen negativ korreliert zu sein, wenn die wahre Korrelation zwischen und ist Negativ). Ich fand das etwas eingängig. Sehr heuristisch denke ich, dass dies die Tatsache widerspiegelt, dass die erwartete Zunahme von Y (in Einheiten von SD (Y)) für eine Zunahme von X um eine SD darstellt, und wenn wir ein größeres , dann spiegelt die Änderung von Y wider verbunden mit einer größeren Änderung in X.
Ich würde jedoch gerne wissen, ob für im Allgemeinen gilt (zumindest für den Fall, dass X und Y bivariat normal und mit großem n sind). Wenn wir eine echte SD bezeichnen lassen, haben wir:
Ich habe versucht, im ersten Term eine Taylor-Erweiterung zu verwenden, aber das hängt von ist also eine Sackgasse. Irgendwelche Ideen?
BEARBEITEN
Vielleicht wäre eine bessere Richtung zu versuchen zu zeigen, dass , wobei der OLS-Koeffizient von Y auf X ist. Dann könnten wir das argumentieren, da , dies impliziert das gewünschte Ergebnis. Da fast wie ein Unterschied der Stichprobenmittelwerte ist, könnten wir vielleicht das erstere Ergebnis erhalten, indem wir so etwas wie die bekannte Unabhängigkeit des Stichprobenmittelwerts und der Varianz für ein normales Wohnmobil verwenden?
quelle
Antworten:
TL; dr
Die nicht diagonalen Einträge der Stichproben-Kovarianz werden im Allgemeinen mit den diagonalen Einträgen korreliert, da nur dann gilt, wenn spezielle Bedingungen für die gemischten Momente 4. Ordnung gelten. Wenn bivariate Gaußsche Werte sind, gelten diese Bedingungen nur, wenn von unabhängig ist .E(XY3)−E(XY)E(Y2)=0 (X,Y) X Y
Einzelheiten
Es gibt ein asymptotisches Ergebnis, das hier gezeigt werden kann, indem die Grenzverteilung von mal der Probenkovarianz untersucht wird (nach der CLT wird es multivariate Normalen sein) und dann die Delta-Methode angewendet wird. Dies bedeutet leider, dass wir einen Umweg über eine Ableitung der Verteilung der Stichproben-Kovarianz machen müssen da ich online keine guten Referenzen dazu finden kann. Wenn Sie bereit sind, Normalität anzunehmen, können Sie mit Kenntnis der Kovarianz der Wishart-Verteilung direkt zu Abschnitt 2 springen.n−−√ 1
1 Die asymptotische Verteilung der Probenkovarianz
Sei eine iid-Stichprobe aus einer bivariaten Verteilung mit endlichen vierten Momenten und sei Ohne Verlust der Allgemeinheit und um lästige zusätzliche Buchhaltung zu vermeiden, nehmen wir .V1,…,Vn Vi=(XiYi) Cov(Vi)=(σ2ρστρσττ2)=Σ. E(Vi)=0
Dann ist durch die Linearität der Erwartung und das schwache Gesetz großer Zahlen die Stichproben-Kovarianz ist unvoreingenommen und konsistent für und tatsächlichSn=1n−1∑i=1n(Vi−V¯n)(Vi−V¯n)T=1n−1∑i=1ViVTi−nn−1V¯nV¯Tn Σ n−−√(Sn−Σ)→dN(0,Λ).
Die Übung geht somit zur Bestimmung von . Für eine symmetrische Matrix , lassen sein , die "Vektorisierung" seines oberen Dreiecks. Betrachten Sie nun ein einzelnes Element des Durchschnitts, das in den führenden Term (die Streumatrix) von : Durch die Null-Mittelwert-Annahme, dass bereits und durch Berücksichtigung der Potenzen von und , die in , können wir einfach schreibenΛ A=(abbc) A~=(a,b,c)T Sn Z~i=ViVTi˜=⎛⎝⎜X2iXiYiY2i⎞⎠⎟. E(Zi)=Σ~ X Y Z~iZ~Ti Cov(Z~i)=E(Z~iZ~Ti)−E(Z~i)E(Z~i)T=⎛⎝⎜κ40σ4κ31σ2τκ22σ2τ2κ31σ2τκ22σ2τ2κ13στ3κ22σ2τ2κ13στ3κ04τ4⎞⎠⎟−Σ~Σ~T.
Hier gibt das an gemischtes standardisiertes Moment (ungefähr der Mittelwert, aber wir haben zu Beginn den Mittelwert Null angenommen).κij=E[(Xiσ)i(Yiτ)j] ij
Alternativ haben wir die Faktorisierung wobei , undCov(Z~i)=D(σ,τ)[K−R(ρ)R(ρ)T]D(σ,τ),(1) D(σ,τ)=diag(σ2,στ,τ2) R(ρ)=(1,ρ,1)T K=⎛⎝⎜κ04κ31κ22κ31κ22κ13κ22κ13κ04⎞⎠⎟.
Wir haben also, dass und , die die Stichprobenvarianz von und die Kovarianz von korreliert sind, es sei denn, . Wenn multivariat normal ist, tritt dies nur auf, wenn .Z11 Z12 X X,Y ρ=κ31 Vi ρ=0
2 Der Korrelationskoeffizient
Betrachten Sie nun die Transformation auf . Dies liefert die bivariate Verteilung des Probenkorrelationskoeffizienten und der Probenvarianz von x. Nach der Delta-Methode und der asymptotischen Normalität von ist wobei ist der Jacobi von .g(x,y,z)=(x,yz√x√) Sn~ Sn n−−√(g(Sn~)−(ρ,σ2)T)→N(0,J(Σ~)TΛ~J(Σ~)), J(Σ~)=[∇gT1,∇gT2]T g
Ich finde , (obwohl Sie wahrscheinlich wollen meine Algebra überprüfen ..) , dass der Gradient der zweiten Komponente von heißt Sog ∇g2(σ2,ρστ,τ2)=(−ρ2σ2,1στ,−ρ2τ2)T,
J(σ,ρ,τ)=⎛⎝⎜⎜100−ρ2σ21στ−ρ2τ2⎞⎠⎟⎟.
Alles zusammen mit der Faktorisierung in Gleichung (1) ergibt
Wenn Sie einige einfach zu verwendende Zahlen eingeben , z. B. und , hätten wir für wobei im Allgemeinen eine dichte Matrix ist. Mit freundlicher Genehmigung von Mathematica habe ich dieses Produkt in Bezug auf Einträge in und unterσ=τ=1 ρ=.5 J(σ,ρ,τ)TD(σ,τ)[K−R(ρ)R(ρ)T]D(σ,τ)J(σ,ρ,τ)=(−1/4110−1/40)IΩI⎛⎝⎜−1/41−1/4100⎞⎠⎟=Q, Ω=K−R(ρ)R(ρ)T K Q12
n×Q12=n×Cov(r,s2x)=κ31−κ04+κ224(2)
Das ist ein undurchsichtiger Ausdruck in Bezug auf die gemischten Momente, aber es scheint sicher nicht so, als würde es im Allgemeinen Null sein.
3 Spezialisiert auf den Normalfall
Das Isserlis-Theorem bietet eine Möglichkeit, die gemischten Momente eines Gaußschen abzuleiten. Wieder unter der Annahme von und wir , also , wie Sie beobachten.σ=τ=1 ρ=.5 κ31=3/2,κ04=3,κ22=3/2 Q12=3/2−(3+3/2)/4=3/8>0
4 Simulation und Beispiel
Unten finden Sie eine Simulation zur Überprüfung von Gleichung (1). Für und (in rot bzw. blau) iid Beobachtungen aus einer multivariaten Normalen leite ich die Kovarianz von durch Bootstrap ab. Die Kovarianz zwischen und auf der Y - Achse aufgetragen , wie von variiert bis . Der theoretische Wert aus Gleichung (1) und die Verwendung von Fakten über die Momente 4. Ordnung des bivariaten Gaußschen ist in einer gestrichelten schwarzen Linie dargestellt.n=100 n=1000 n−−√S~n Sxy Sxx ρ −.9 .9
Ein Spaß Übung wäre, zu versuchen , eine Familie von Copula zu finden , dass für einen beliebigen Wert von machen würde ...ρ Cov(Sxy,Sxx)=0
quelle
Bearbeiten: Diese Antwort ist falsch. Ich bin mir nicht sicher, ob es besser ist, es hier für die Aufzeichnung zu belassen oder es einfach zu löschen.
Ja, es gilt asymptotisch, unabhängig von der Verteilung von X und Y. Ich war mit der Taylor-Erweiterung auf dem richtigen Weg:
quelle
Dies hängt von der gemeinsamen Verteilung ab. Für das von Ihnen erwähnte Beispiel ist die bivariate Normalverteilung (Mittelwert Null) durch . Daraus folgt, dass man alle möglichen Wertekombinationen dieser drei Parameter haben kann, was bedeutet, dass keine Beziehung zwischen und den Standardabweichungen hergestellt werden kann.ρ,σx,σy ρ
Für andere bivariate Verteilungen kann der Korrelationskoeffizient grundsätzlich eine Funktion der Standardabweichungen sein (im Wesentlichen sind beide Funktionen primitiverer Parameter). In diesem Fall kann untersucht werden, ob eine monotone Beziehung besteht.
quelle