Das pdf von

Angenommen , $X_1, X_2,...,X_n$ sei iid aus $N(\mu,\sigma^2)$ mit unbekanntem $\mu \in \mathcal R$ und $\sigma^2>0$

Sei $Z=\frac{X_1-\bar{X}}{S},$ S ist hier die Standardabweichung.

Es kann gezeigt werden, dass $Z$ die Lebesgue pdf hat

f (z) = \frac{\sqrt{n} Γ (\frac{n - 1}{2})}{\sqrt{π} (n - 1) Γ (\frac{n - 2}{2})} {[1 - \frac{n z^{2}}{(n - 1)^{2}}]}^{n / 2 - 2} {ich}_{(0, (n - 1) / \sqrt{n})} (| Z |)

$f(z)=\frac{\sqrt{n} \Gamma\left(\frac{n-1}{2}\right)}{\sqrt{\pi}(n-1)\Gamma\left(\frac{n-2}{2}\right)}\left[1-\frac{nz^2}{(n-1)^2}\right]^{n/2-2}I_{(0,(n-1)/\sqrt{n})}(|Z|)$

Meine Frage ist dann, wie man dieses pdf erhält?

Die Frage ist von hier in Beispiel 3.3.4, um den UMVUE von $P(X_1 \le c)$ . Ich kann die Logik und Prozeduren verstehen, um das UMVUE zu finden, weiß aber nicht, wie ich das PDF erhalten soll.

Ich denke , diese Frage auch auf diese beziehen sich ein

Vielen Dank für die Hilfe oder den Hinweis auf verwandte Referenzen werden ebenfalls angeeignet.

self-study umvue Tiefer Norden
quelle

Antworten:

Das Faszinierende an diesem Ergebnis ist, wie sehr es nach der Verteilung eines Korrelationskoeffizienten aussieht. Es gibt einen Grund.

Angenommen, ist bivariate Normale mit Nullkorrelation und gemeinsamer Varianz für beide Variablen. Zeichnen Sie eine iid-Probe . Es ist allgemein bekannt und geometrisch leicht zu bestimmen (wie Fisher es vor einem Jahrhundert getan hat), dass die Verteilung des Probenkorrelationskoeffizienten $(X,Y)$ $\sigma^2$ $(x_1,y_1), \ldots, (x_n,y_n)$

r = \frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) (y_{i} - \bar{y})}{(n - 1) S_{x} S_{y}}

$r = \frac{\sum_{i=1}^n(x_i - \bar x)(y_i - \bar y)}{(n-1) S_x S_y}$

ist

f (r) = \frac{1}{B (\frac{1}{2}, \frac{n}{2} - 1)} {(1 - r^{2})}^{n / 2 - 2}, - 1 \leq r \leq 1.

$f(r) = \frac{1}{B\left(\frac{1}{2}, \frac{n}{2}-1\right)}\left(1-r^2\right)^{n/2-2},\ -1 \le r \le 1.$

(Hier sind wie üblich und und und sind die Quadratwurzeln der unverzerrten Varianzschätzer.) ist die Beta-Funktion , für die $\bar x$ $\bar y$ $S_x$ $S_y$ $B$

\begin{matrix} (1) & \frac{1}{B (\frac{1}{2}, \frac{n}{2} - 1)} = \frac{Γ (\frac{n - 1}{2})}{Γ (\frac{1}{2}) Γ (\frac{n}{2} - 1)} = \frac{Γ (\frac{n - 1}{2})}{\sqrt{π} Γ (\frac{n}{2} - 1)} . \end{matrix}

$\frac{1}{B\left(\frac{1}{2}, \frac{n}{2}-1\right)} = \frac{\Gamma\left(\frac{n-1}{2}\right)}{\Gamma\left(\frac{1}{2}\right)\Gamma\left(\frac{n}{2}-1\right)} = \frac{\Gamma\left(\frac{n-1}{2}\right)}{\sqrt{\pi}\Gamma\left(\frac{n}{2}-1\right)} . \tag{1}$

Um zu berechnen , können wir seine Invarianz unter Rotationen in um die durch erzeugte Linie zusammen mit der Invarianz der Verteilung der Stichprobe unter denselben Rotationen ausnutzen und wählen ist ein beliebiger Einheitsvektor, dessen Komponenten sich zu Null addieren. Ein solcher Vektor ist proportional zu . Seine Standardabweichung ist $r$ $\mathbb{R}^n$ $(1,1,\ldots, 1)$ $y_i/S_y$ $v = (n-1, -1, \ldots, -1)$

S_{v} = \sqrt{\frac{1}{n - 1} ((n - 1)^{2} + (- 1)^{2} + \dots + (- 1)^{2})} = \sqrt{n} .

$S_v = \sqrt{\frac{1}{n-1}\left((n-1)^2 + (-1)^2 + \cdots + (-1)^2\right)} = \sqrt{n}.$

Folglich muss die gleiche Verteilung haben wie $r$

\frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) (v_{i} - \bar{v})}{(n - 1) S_{x} S_{v}} = \frac{(n - 1) x_{1} - x_{2} - \dots - x_{n}}{(n - 1) S_{x} \sqrt{n}} = \frac{n (x_{1} - \bar{x})}{(n - 1) S_{x} \sqrt{n}} = \frac{\sqrt{n}}{n - 1} Z .

$\frac{\sum_{i=1}^n(x_i - \bar x)(v_i - \bar v)}{(n-1) S_x S_v} = \frac{(n-1)x_1 - x_2-\cdots-x_n}{(n-1) S_x \sqrt{n}} = \frac{n(x_1 - \bar x)}{(n-1) S_x \sqrt{n}} = \frac{\sqrt{n}}{n-1}Z.$

Daher brauchen wir nur zu skalieren , um die Verteilung von zu finden : $r$ $Z$

f_{Z} (z) = | \frac{\sqrt{n}}{n - 1} | f (\frac{\sqrt{n}}{n - 1} z) = \frac{1}{B (\frac{1}{2}, \frac{n}{2} - 1)} \frac{\sqrt{n}}{n - 1} {(1 - \frac{n}{(n - 1)^{2}} z^{2})}^{n / 2 - 2}

$f_Z(z) = \big|\frac{\sqrt{n}}{n-1}\big| f\left(\frac{\sqrt{n}}{n-1}z\right) = \frac{1}{B\left(\frac{1}{2}, \frac{n}{2}-1\right)} \frac{\sqrt{n}}{n-1}\left(1- \frac{n}{(n-1)^2}z^2\right)^{n/2-2}$

für . Die Formel (1) zeigt, dass dies mit dem der Frage identisch ist. $|z| \le \frac{n-1}{\sqrt{n}}$

Nicht ganz überzeugt? Hier ist das Ergebnis der 100.000-fachen Simulation dieser Situation (mit , wobei die Verteilung gleichmäßig ist). $n=4$

Das erste Histogramm zeigt die Korrelationskoeffizienten von während das zweite Histogramm die Korrelationskoeffizienten von für a darstellt zufällig gewählter Vektor , der für alle Iterationen fest bleibt. Sie sind beide einheitlich. Das QQ-Diagramm auf der rechten Seite bestätigt, dass diese Verteilungen im Wesentlichen identisch sind. $(x_i,y_i),i=1,\ldots,4$ $(x_i,v_i),i=1,\ldots,4)$ $v_i$

Hier ist der RCode, der die Handlung erzeugt hat.

n <- 4
n.sim <- 1e5
set.seed(17)
par(mfrow=c(1,3))
#
# Simulate spherical bivariate normal samples of size n each.
#
x <- matrix(rnorm(n.sim*n), n)
y <- matrix(rnorm(n.sim*n), n)
#
# Look at the distribution of the correlation of `x` and `y`.
#
sim <- sapply(1:n.sim, function(i) cor(x[,i], y[,i]))
hist(sim)
#
# Specify *any* fixed vector in place of `y`.
#
v <- c(n-1, rep(-1, n-1)) # The case in question
v <- rnorm(n)             # Can use anything you want
#
# Look at the distribution of the correlation of `x` with `v`.
#
sim2 <- sapply(1:n.sim, function(i) cor(x[,i], v))
hist(sim2)
#
# Compare the two distributions.
#
qqplot(sim, sim2, main="QQ Plot")

Referenz

RA Fisher, Häufigkeitsverteilung der Werte des Korrelationskoeffizienten in Stichproben einer unbegrenzt großen Population . Biometrika , 10 , 507. Siehe Abschnitt 3. (Zitiert in Kendalls Advanced Theory of Statistics , 5. Aufl., Abschnitt 16.24.)

whuber
quelle

Die Verknüpfung zur Referenz ist unterbrochen.

Sextus Empiricus

@ Martijn Vielen Dank für die Prüfung. Ich verstehe, was Sie meinen - der Link funktioniert, aber es geht um nichts Relevantes! Ich habe es repariert.

Whuber

Ich möchte diesen Weg vorschlagen, um das PDF von Z durch direkte Berechnung des MVUE von Verwendung des Bayes-Theorems zu erhalten, obwohl es handvoll und komplex ist. $P(X\leq c)$

Da und , sind gemeinsame vollständige erschöpfende Statistik, MVUE von würde sei so: $E[I_{(-\infty,c)}(X_1)]=P(X_1\leq c)$ $Z_1=\bar X$ $Z_2=S^2$ $P(X\leq c)$

ψ (z_{1}, z_{2}) = E [I_{(- \infty, c)} (X_{1}) | z_{1}, z_{2}] = \int_{- \infty}^{\infty} I_{(- \infty, c)} f_{X | Z_{1}, Z_{2}} (x_{1} | z_{1}, z_{2}) d x_{1}

$\psi(z_1,z_2)=E[I_{(-\infty,c)}(X_1)|z_1,z_2]=\int_{-\infty}^{\infty}I_{(-\infty,c)}f_{X|Z_1,Z_2}(x_1|z_1,z_2)dx_1$

Mit dem Satz von Bayes erhalten wir

f_{X | Z_{1}, Z_{2}} (x_{1} | z_{1}, z_{2}) = \frac{f_{Z_{1}, Z_{2} | X_{1}} (z_{1}, z_{2} | x_{1}) f_{X_{1}} (x_{1})}{f_{Z_{1}, Z_{2}} (z_{1}, z_{2})}

$f_{X|Z_1,Z_2}(x_1|z_1,z_2)={{f_{Z_1,Z_2|X_1}(z_1,z_2|x_1)f_{X_1}(x_1)}\over{f_{Z_1,Z_2}(z_1,z_2)}}$

Der Nenner kann in geschlossener Form geschrieben werden, weil $f_{Z_1,Z_2}(z_1,z_2)=f_{Z_1}(z_1)f_{Z_2}(z_2)$ , $Z_1 \sim N(\mu,\frac{\sigma^2}{n})$ sind voneinander unabhängig. $Z_2 \sim \Gamma({n-1\over 2},{2 \sigma^2\over n-1})$

Um die geschlossene Form des Zählers zu erhalten, können wir diese Statistik übernehmen:

W_{1} = \frac{\sum_{i = 2}^{n} X_{i}}{n - 1}

$W_1 = {\sum_{i=2}^n X_i \over n-1}$

W_{2} = \frac{\sum_{i = 2}^{n} X_{i}^{2} - (n - 1) W_{1}^{2}}{(n - 1) - 1}

$W_2 = {\sum_{i=2}^n X_i^2 -(n-1) W_1^2 \over (n-1)-1}$

welches der Mittelwert und die Stichprobenvarianz von $X_2, X_3, ..., X_n$ $X_1$ $Z_1, Z_2$

$W_1={n Z_1 - X_1\over n-1}$ $W_2={(n-1)Z_2+nZ_1^2-X_1^2-(n-1)W_1^2 \over n-2}$

$X_1=x_1$

f_{Z_{1}, Z_{2} | X_{1}} (z_{1}, z_{2} | x_{1}) = \frac{n}{n - 2} f_{W_{1}, W_{2}} (w_{1}, w_{2}) = \frac{n}{n - 2} f_{W_{1}} (w_{1}) f_{W_{2}} (w_{2})

$f_{Z_1,Z_2|X_1}(z_1,z_2|x_1)={n \over n-2}f_{W_1,W_2}(w_1,w_2)={n \over n-2}f_{W_1}(w_1)f_{W_2}(w_2)$

Schon seit $W_1 \sim N(\mu,\frac{\sigma^2}{n-1})$ , $W_2 \sim \Gamma({n-2\over 2},{2 \sigma^2\over n-2})$ wir können die geschlossene Form davon bekommen. Beachten Sie, dass dies nur für gilt $w_2 \geq 0$ was einschränkt $x_1$ zu $z_1-{n-1 \over \sqrt n}\sqrt{z_2} \leq x_1 \leq z_1+{n-1 \over \sqrt n}\sqrt{z_2}$ .

So put them all together, exponential terms would disappear and you'd get,

f_{X | Z_{1}, Z_{2}} (x_{1} | z_{1}, z_{2}) = \frac{Γ (\frac{n - 1}{2})}{\sqrt{π} Γ (\frac{n - 2}{2})} \frac{\sqrt{n}}{\sqrt{z_{2}} (n - 1)} (1 - {(\frac{\sqrt{n} (x_{1} - z_{1})}{\sqrt{z_{2}} (n - 1)})}^{2})

$f_{X|Z_1,Z_2}(x_1|z_1,z_2)={\Gamma({n-1 \over 2}) \over \sqrt{\pi} \Gamma({n-2 \over 2})} {\sqrt{n} \over \sqrt{z_2} (n-1)} (1-{({\sqrt{n} (x_1 -z_1) \over \sqrt{z_2} (n-1) })}^2)$ where

z_{1} - \frac{n - 1}{\sqrt{n}} \sqrt{z_{2}} \leq x_{1} \leq z_{1} + \frac{n - 1}{\sqrt{n}} \sqrt{z_{2}}

$z_1-{n-1 \over \sqrt n}\sqrt{z_2} \leq x_1 \leq z_1+{n-1 \over \sqrt n}\sqrt{z_2}$ and zero elsewhere.

From this,at this point, we can get the pdf of $Z={X_1- z_1 \over \sqrt{z_2}}$ using transformation.

By the way, the MVUE would be like this :

ψ (z_{1}, z_{2}) = \frac{Γ (\frac{n - 1}{2})}{\sqrt{π} Γ (\frac{n - 2}{2})} \int_{- \frac{π}{2}}^{θ_{c}} c o s^{n - 3} θ d θ

$\psi(z_1,z_2)={\Gamma({n-1 \over 2}) \over \sqrt{\pi} \Gamma({n-2 \over 2})} \int ^{\theta_c} _{-{\pi \over2}} cos^{n-3} \theta d\theta$ while

θ_{c} = s i n^{- 1} (\frac{\sqrt{n} (c - z_{1})}{(n - 1) \sqrt{z_{1}}})

$\theta_c = sin^{-1} ({\sqrt{n}(c-z_1)\over(n-1)\sqrt{z_1}})$ and would be 1 if

c \geq z_{1} + \frac{n - 1}{\sqrt{n} \sqrt{z_{2}}}

$c \geq z_1+{n-1 \over \sqrt{n} \sqrt{z_2} }$

I am not a native English speaker and there could be some awkward sentences. I am studying statistics by myself with text book introduction to mathmatical statistics by Hogg. So there could be some grammatical or mathmatical conceptual mistakes. It would be appreciated if someone correct them.

Thank you for reading.

KDG
quelle