Verteilung der Stichprobenkorrelation

8

Angenommen, ich habe eine große Population von Datenpunkten und die Pearson-Korrelation ist(x,y)

corr(X,Y)=ρ

Was kann ich vernünftigerweise über die Korrelation sagen, die ich bei einer Stichprobe der Größe erwarten werde ? Wenn die Stichprobenkorrelation , wie ist ungefähr die Streuung ? Ist voreingenommen?nρsρsρs

Wenn wir einige Annahmen wie Normalität treffen, können wir dann die genaue Wahrscheinlichkeitsfunktion von als Funktion von berechnen ?ρsρ

(Letztendlich wundere ich mich über das Problem, ob eine beobachtete hohe Korrelation ein Zufall ist oder nicht, und alles, was ich habe, ist die Stichprobengröße und die Korrelation.)

Mark Eichenlaub
quelle
2
onestop hat eine Antwort geliefert, die Ihnen hoffentlich genug gibt, um fortzufahren. Wenn Sie wirklich etwas über die Verteilung des Stichproben-Korrelationskoeffizienten selbst wissen möchten, lautet die eindeutige Referenz: Hotelling, H. (1953). Neues Licht auf den Korrelationskoeffizienten und seine Transformationen. Zeitschrift der Royal Statistical Society, Reihe B, 15, 193-232. Beachten Sie, dass dies keine leichte Anzeige ist.
Wolfgang
Ich denke nicht, dass Ihre Grafiken richtig sind. Ich habe gerade einige Diagramme der Verteilung gezeichnet, die aus der Fisher-Formel abgeleitet wurden und zeigen, dass sie korrekt zentriert ist. Tatsächlich ist es aus der Formel ziemlich offensichtlich, dass es für asympototisch unvoreingenommen sein muss . Könnten Sie den mathematischen Kern Ihres Codes veröffentlichen? N
Onestop
@onestop Sicher. Mathematica-Code hinzugefügt.
Mark Eichenlaub
So transformieren sich PDFs nicht - es ist etwas komplizierter. Siehe en.wikipedia.org/wiki/…
Onestop
@onestop Natürlich. Vielen Dank. Nachdem ich den Code veröffentlicht hatte, wurde mir klar, dass es ein Problem gab, aber ich hätte eine Weile gebraucht, um herauszufinden, wie ich es beheben kann.
Mark Eichenlaub

Antworten:

7

Um den Wikipedia-Artikel über die Fisher-Transformation zu zitieren :

Wenn eine bivariate Normalverteilung hat und wenn die Paare, die zur Bildung des Stichprobenkorrelationskoeffizienten werden, unabhängig sind für dann ist ist ungefähr normal verteilt mit dem Mittelwert und Standardfehler wobei die Stichprobengröße ist.(X,Y)(Xi,Yi)ri=1,,n,

z=12ln1+r1r=arctanh(r)
12ln1+ρ1ρ,1N3,N
ein Stop
quelle
Entschuldigung, nicht zu akzeptieren. Als ich versuchte, diese Antwort zu verwenden, stellte ich fest, dass sie für die Situation, an der ich interessiert bin, nicht funktioniert (hohe Korrelationskoeffizienten).
Mark Eichenlaub
@ Mark, ich habe einige Simulationen mit R gemacht, alles gilt ziemlich gut für die Korrelation 0,75
mpiktas
@mpiktas Ja, du hast recht, danke. Ich habe einen Fehler in meinem Notizbuch gemacht.
Mark Eichenlaub
1
Die genaue Verteilung ist bekannt: Sie wird durch eine hypergeometrische Funktion angegeben .
whuber