Das Faszinierende an diesem Ergebnis ist, wie sehr es nach der Verteilung eines Korrelationskoeffizienten aussieht. Es gibt einen Grund.
Angenommen, ist bivariate Normale mit Nullkorrelation und gemeinsamer Varianz σ 2 für beide Variablen. Zeichnen Sie eine iid-Probe ( x 1 , y 1 ) , … , ( x n , y n ) . Es ist allgemein bekannt und geometrisch leicht zu bestimmen (wie Fisher es vor einem Jahrhundert getan hat), dass die Verteilung des Probenkorrelationskoeffizienten(X,Y)σ2(x1,y1),…,(xn,yn)
r = ∑ni = 1( xich- x¯) ( yich- y¯)( n - 1 ) SxSy
ist
f( r ) = 1B ( 12, n2- 1 )( 1 - r2)n / 2 - 2, - 1 ≤ r ≤ 1.
(Hier sind wie üblich und usual y Abtastmittel und S x und S y sind die Quadratwurzeln der unverzerrten Varianzschätzer.) B ist die Beta-Funktion , für diex¯y¯SxSyB
1B ( 12, n2- 1 )=Γ(n−12)Γ(12)Γ(n2−1)=Γ(n−12)π−−√Γ(n2−1).(1)
Um zu berechnen , können wir seine Invarianz unter Rotationen in R n um die durch ( 1 , 1 , … , 1 ) erzeugte Linie zusammen mit der Invarianz der Verteilung der Stichprobe unter denselben Rotationen ausnutzen und y i / S wählen y ist ein beliebiger Einheitsvektor, dessen Komponenten sich zu Null addieren. Ein solcher Vektor ist proportional zu v = ( n - 1 , - 1 , ... , - 1 ) . Seine Standardabweichung istrRn(1,1,…,1)yi/Syv=(n−1,−1,…,−1)
Sv= 1n - 1((n−1)2+(−1)2+⋯+(−1)2)−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√=n−−√.
Folglich muss die gleiche Verteilung haben wier
∑ni=1(xi−x¯)(vi−v¯)(n−1)SxSv=(n−1)x1−x2−⋯−xn(n−1)Sxn−−√=n(x1−x¯)(n−1)Sxn−−√=n−−√n−1Z.
Daher brauchen wir nur zu skalieren , um die Verteilung von Z zu finden :rZ
fZ(z)=∣∣n−−√n−1∣∣f(n−−√n−1z)=1B(12,n2−1)n−−√n−1(1−n(n−1)2z2)n/2−2
für . Die Formel (1) zeigt, dass dies mit dem der Frage identisch ist.|z|≤n−1n√
Nicht ganz überzeugt? Hier ist das Ergebnis der 100.000-fachen Simulation dieser Situation (mit , wobei die Verteilung gleichmäßig ist).n=4
Das erste Histogramm zeigt die Korrelationskoeffizienten von während das zweite Histogramm die Korrelationskoeffizienten von ( x i , v i ) , i = 1 , … , 4 ) für a darstellt zufällig gewählter Vektor v i , der für alle Iterationen fest bleibt. Sie sind beide einheitlich. Das QQ-Diagramm auf der rechten Seite bestätigt, dass diese Verteilungen im Wesentlichen identisch sind.(xi,yi),i=1,…,4(xi,vi),i=1,…,4) vi
Hier ist der R
Code, der die Handlung erzeugt hat.
n <- 4
n.sim <- 1e5
set.seed(17)
par(mfrow=c(1,3))
#
# Simulate spherical bivariate normal samples of size n each.
#
x <- matrix(rnorm(n.sim*n), n)
y <- matrix(rnorm(n.sim*n), n)
#
# Look at the distribution of the correlation of `x` and `y`.
#
sim <- sapply(1:n.sim, function(i) cor(x[,i], y[,i]))
hist(sim)
#
# Specify *any* fixed vector in place of `y`.
#
v <- c(n-1, rep(-1, n-1)) # The case in question
v <- rnorm(n) # Can use anything you want
#
# Look at the distribution of the correlation of `x` with `v`.
#
sim2 <- sapply(1:n.sim, function(i) cor(x[,i], v))
hist(sim2)
#
# Compare the two distributions.
#
qqplot(sim, sim2, main="QQ Plot")
Referenz
RA Fisher, Häufigkeitsverteilung der Werte des Korrelationskoeffizienten in Stichproben einer unbegrenzt großen Population . Biometrika , 10 , 507. Siehe Abschnitt 3. (Zitiert in Kendalls Advanced Theory of Statistics , 5. Aufl., Abschnitt 16.24.)
Ich möchte diesen Weg vorschlagen, um das PDF von Z durch direkte Berechnung des MVUE von Verwendung des Bayes-Theorems zu erhalten, obwohl es handvoll und komplex ist.P(X≤c)
Da und Z 1 = ˉ X , Z 2 = S 2 sind gemeinsame vollständige erschöpfende Statistik, MVUE von P ( X ≤ c ) würde sei so:E[I(−∞,c)(X1)]=P(X1≤c) Z1=X¯ Z2=S2 P(X≤c)
Mit dem Satz von Bayes erhalten wir
Der Nenner kann in geschlossener Form geschrieben werden, weilZ1≤N(μ, σ 2) istfZ1,Z2(z1,z2)=fZ1(z1)fZ2(z2) ,Z2≤≤( n - 1Z1∼N(μ,σ2n) sind voneinander unabhängig.Z2∼Γ(n−12,2σ2n−1)
Um die geschlossene Form des Zählers zu erhalten, können wir diese Statistik übernehmen: W2=≤ n i = 2 × 2 i -(n-1)W 2 1
welches der Mittelwert und die Stichprobenvarianz vonX2,X3,...,Xn X1 Z1, Z2
Schon seitW1∼ N( μ , σ2n - 1) , W2∼ Γ ( n - 22, 2 σ2n - 2) wir können die geschlossene Form davon bekommen. Beachten Sie, dass dies nur für giltw2≥ 0 was einschränkt x1 zu z1−n−1n√z2−−√≤x1≤z1+n−1n√z2−−√ .
So put them all together, exponential terms would disappear and you'd get,
From this,at this point, we can get the pdf ofZ=X1−z1z2√ using transformation.
By the way, the MVUE would be like this :
I am not a native English speaker and there could be some awkward sentences. I am studying statistics by myself with text book introduction to mathmatical statistics by Hogg. So there could be some grammatical or mathmatical conceptual mistakes. It would be appreciated if someone correct them.
Thank you for reading.
quelle