Wir zeichnen Proben, jede der Größe , unabhängig von einer Normalverteilung .
Aus den Stichproben wählen wir dann die 2 Stichproben mit der höchsten (absoluten) Pearson-Korrelation aus.
Was ist der erwartete Wert dieser Korrelation?
Danke [PS Das sind keine Hausaufgaben]
Antworten:
Ich habe folgenden Artikel gefunden, der sich mit diesem Problem befasst: Jiang, Tiefeng (2004). Die asymptotischen Verteilungen der größten Einträge von Probenkorrelationsmatrizen. The Annals of Applied Probability, 14 (2), 865-880
Jiang zeigt die asymptotische Verteilung der Statistik Wobei ρ i j ist die Korrelation zwischen dem i - ten und j - ten Zufallsvektoren der Länge n (mit i ≠ j ), ist ,Ln=max1≤i<j≤N|ρij| ρij i j n i≠j
Wobei a = lim n → ∞ n / N angenommen wirdin dem Papier und existiert N ist eine Funktion von n .
Offenbar hält dieses Ergebnis für
jegliche VerteilungVerteilungen mit einer ausreichenden Anzahl von endlichen Momenten ( Edit: Siehe @ Kardinal Kommentar unten). Jiang weist darauf hin, dass dies eine Extremwertverteilung vom Typ I ist. Die Lage und der Maßstab sindDer erwartete Wert der EV-Verteilung vom Typ I ist , wobei γ die Euler-Konstante bezeichnet. Wie in den Kommentaren erwähnt, garantiert die Konvergenz der Verteilung an sich jedoch nicht die Konvergenz der Mittel mit denen der begrenzten Verteilung.μ+σγ γ
Wenn wirsolches Ergebnis in diesem Fall zeigen konnte, dann die asymptotische Erwartungswert von wärenL2n−4logn+log(log(n))
Man beachte, dass dies den asymptotischen Erwartungswert der größten quadratischen Korrelation ergeben würde, während die Frage den Erwartungswert der größten absoluten Korrelation abfragt. Also nicht 100% da, sondern nah dran.
Ich habe ein paar kurze Simulationen durchgeführt, die mich zu der Annahme veranlassten, dass entweder 1) ein Problem mit meiner Simulation vorliegt (wahrscheinlich), 2) ein Problem mit meiner Transkription / Algebra vorliegt (wahrscheinlich) oder 3) die Approximation für die nicht gültig ist Werte von und N habe ich verwendet. Vielleicht kann das OP mit dieser Näherung einige Simulationsergebnisse abwägen?n N
quelle
Further to the answer provided by @jmtroos, below are the details of my simulation, and a comparison with @jmtroos's derivation of the expectation from Jiang (2004), that is:
The values of this expectation seem to be above the simulated values for smallN and below for large N and they appear to diverge slightly as N increases. However, the differences diminish for increasing n , as we would expect as the paper claims that the distribution is asymptotic. I have tried various n∈[100,500] . The simulation below uses n=200 . I'm pretty new to R, so any hints or suggestions to make my code better would be warmly welcomed.
quelle