Erwarteter Wert der falschen Korrelation

12

Wir zeichnen N Proben, jede der Größe n , unabhängig von einer Normalverteilung (μ,σ2) .

Aus den N Stichproben wählen wir dann die 2 Stichproben mit der höchsten (absoluten) Pearson-Korrelation aus.

Was ist der erwartete Wert dieser Korrelation?

Danke [PS Das sind keine Hausaufgaben]

P Sellaz
quelle
2
(+1) Es wäre eine ziemlich herausfordernde Hausaufgabenfrage :-). Benötigen Sie eine allgemeine Antwort oder könnten Sie (vielleicht) Ihre Aufmerksamkeit auf bestimmte Werte von N oder lenken n? Zum Beispiel kann es möglich sein, gute Näherungen zu entwickeln, wenn n viel größer als N ; In anderen Fällen wären andere Annäherungen erforderlich.
Whuber
1
Ich hatte gehofft , für eine allgemeine Antwort, aber eine , bei der Annahme n>>N OK sein würde! Für bestimmte Werte von N und n wäre es nicht so interessant, da ich solche speziellen Fälle durch Simulation betrachten kann (das mache ich gerade), aber es könnte trotzdem von Interesse sein.
P Sellaz
1
Ich denke, eine generelle Lösung eines echten Nutzens ist wahrscheinlich unwahrscheinlich, obwohl ich mich irren könnte. Es hängt ziemlich eng mit einigen offenen Problemen an der Schnittstelle zwischen Geometrie und linearer Algebra zusammen. In Anwendungen entsteht der Bedarf an Informationen über solche Größen, beispielsweise bei der komprimierten Erfassung.
Kardinal
1
FWIW, dies ist das Ergebnis einer Simulation, die ich gerade ausgeführt habe: Unter Verwendung von Normal (0,1) fand ich, dass die mittlere Korrelation, ρ (über 1000 Simulationen) und die Anzahl der Stichproben N ungefähr mit
ρ=0.025+0.113ln(N)0.008ln(N)2
für n=100 und 4Nn Verwendung eines linearen Regressionsmodells. Die Modellanpassung und die übliche Diagnostik waren recht gut. Ich fand auch, dass die mittlere Korrelation ungefähr normalverteilt war (wenn auch leicht nach rechts geneigt).
P Sellaz

Antworten:

9

Ich habe folgenden Artikel gefunden, der sich mit diesem Problem befasst: Jiang, Tiefeng (2004). Die asymptotischen Verteilungen der größten Einträge von Probenkorrelationsmatrizen. The Annals of Applied Probability, 14 (2), 865-880

Jiang zeigt die asymptotische Verteilung der Statistik Wobei ρ i j ist die Korrelation zwischen dem i - ten und j - ten Zufallsvektoren der Länge n (mit i j ), ist ,Ln=max1i<jN|ρij|ρijijnij

Wobei a = lim n n / N angenommen wirdin dem Papier und existiert N ist eine Funktion von n .

limnPr[nLn24logn+log(log(n))y]=exp(1a28πexp(y/2)),
a=limnn/NNn

Offenbar hält dieses Ergebnis für jegliche Verteilung Verteilungen mit einer ausreichenden Anzahl von endlichen Momenten ( Edit: Siehe @ Kardinal Kommentar unten). Jiang weist darauf hin, dass dies eine Extremwertverteilung vom Typ I ist. Die Lage und der Maßstab sind

σ=2,μ=2log(1a28π).

Der erwartete Wert der EV-Verteilung vom Typ I ist , wobei γ die Euler-Konstante bezeichnet. Wie in den Kommentaren erwähnt, garantiert die Konvergenz der Verteilung an sich jedoch nicht die Konvergenz der Mittel mit denen der begrenzten Verteilung.μ+σγγ

Wenn wirsolches Ergebnis in diesem Fall zeigen konnte, dann die asymptotische Erwartungswert von wärenLn24logn+log(log(n))

limnE[nLn24logn+log(log(n))]=2log(a28π)+2γ.

Man beachte, dass dies den asymptotischen Erwartungswert der größten quadratischen Korrelation ergeben würde, während die Frage den Erwartungswert der größten absoluten Korrelation abfragt. Also nicht 100% da, sondern nah dran.

Ich habe ein paar kurze Simulationen durchgeführt, die mich zu der Annahme veranlassten, dass entweder 1) ein Problem mit meiner Simulation vorliegt (wahrscheinlich), 2) ein Problem mit meiner Transkription / Algebra vorliegt (wahrscheinlich) oder 3) die Approximation für die nicht gültig ist Werte von und N habe ich verwendet. Vielleicht kann das OP mit dieser Näherung einige Simulationsergebnisse abwägen?nN

jmtroos
quelle
2
Und abgesehen davon: Diese Frage hat mir sehr gut gefallen - ich habe mich schon früher über diese Frage gewundert. Die Verbindung zur Type-I-Distribution hat mich überrascht - das fand ich ziemlich cool. Ich wünschte nur, ich hätte die Mathematik verstanden, die dazu führte ...
jmtroos
1
(+1) Schöne Entdeckung !! Ich denke, wir können annehmen, dass die positive Quadratwurzel dieses dem erwarteten Wert der größten absoluten Korrelation entspricht. Können wir in Ihrem Ausdruck für die Erwartung nicht einfach alle Teile mit n herausnehmen, um zu ergeben: E [ L 2 n ] = 1Lnn
E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}
? Anyway, I have compared this to my simulations and it looks quite close ! My R code is really sloppy, so I'll try to tidy it up later today or tomorrow and post it...
P Sellaz
BTW, the paper is available directly from here projecteuclid.org/DPubS/Repository/1.0/…
P Sellaz
3
(+1) This is a very nice paper, and I've only skimmed it, but we need to be a little careful here. Some remarks: (1) The results are for the regime n/pγ(0,), so the dimension of the vectors has to be growing roughly proportional to the number of vectors under consideration for these results to hold. (2) Even in this case, the results do not hold for "any" distribution; indeed, the conditions in the paper require that the random variables be "almost exponentially bounded" ones in the sense that we essentially require the 30th moment to be finite! (cont.)
Kardinal
3
{Ln}χ12, but the means can be made to converge to any positive constant one chooses.
cardinal
2

Further to the answer provided by @jmtroos, below are the details of my simulation, and a comparison with @jmtroos's derivation of the expectation from Jiang (2004), that is:

E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}

The values of this expectation seem to be above the simulated values for small N and below for large N and they appear to diverge slightly as N increases. However, the differences diminish for increasing n, as we would expect as the paper claims that the distribution is asymptotic. I have tried various n[100,500]. The simulation below uses n=200. I'm pretty new to R, so any hints or suggestions to make my code better would be warmly welcomed.

set.seed(1)

ns <- 500
# number of simulations for each N

n <- 200
# length of each vector

mu <- 0
sigma <- 1
# parameters for the distribution we simulate from

par(mfrow=c(5,5))
x<-trunc(seq(from=5,to=n, length=20))
#vector of Ns

y<-vector(mode = "numeric")
#vector to store the mean correlations

k<- 1
#index for y

for (N in x) {
# loop over a range of N

    dt <- matrix(nrow=n,ncol=N)

    J <- vector(mode = "numeric")
    # vector to store the simulated largest absolute 
    # correlations for each N

    for (j in 1:ns) {
    # for each N, simulated ns times    

      for (i in 1:N) {
        dt[,i] <- rnorm(n,mu,sigma)
      }
      # perform the simulation

      M<-matrix(cor(dt),nrow=N,ncol=N)
      m <- M
      diag(m) <- NA
      J[j] <- max(abs(m), na.rm=TRUE)   
      # obtain the largest absolute correlation
      # these 3 lines came from stackoverflow
  }

    hist(J,main=paste("N=",N, " n=",n, " N(0,1)", "\nmean=",round(J[j],4))) 
    y[k]<-mean(J)
    k=k+1
}

lm1 <- lm(y~log(x))
summary(lm1)

logx_sq=log(x)^2
lm2<-lm(y~log(x)+logx_sq)
summary(lm2)
# linear models for these simulations

# Jiang 2004 paper, computation:

gamma = 0.5772
yy <- vector(mode = "numeric")
yy <- sqrt((2*log((x^2)/(sqrt(8*pi)*n^2)) + 2*gamma-(-4*log(n)+log(log(n))))/n)


plot(x,yy)
# plot the simulated correlations
points(x,y,col='red')
# add the points using the expectation
P Sellaz
quelle
See my comments to the other answer, which may (or may not) help explain some of the discrepancies you note.
cardinal