Angenommen, Sie definieren:
wobei die Inverse der CDF der Standardnormalverteilung .
Meine Frage ist: Gibt es eine einfache Verteilung, der folgt, oder die sich annähern kann ? Ich frage, weil ich aufgrund der Simulationsergebnisse (siehe unten) den starken Verdacht habe, dass zu einer Normalverteilung konvergiert, wenn und hoch sind, aber ich weiß nicht, warum dies mathematisch der Fall ist. (Natürlich, wenn , wäre gleichförmig und wäre die Standardnormale, aber warum würde es für höhere Werte zutreffen?).
Wenn dies zu einer Normalen konvergiert, wie lauten die Parameter dieser Normalen in Bezug auf und ? (Ich gehe davon aus, dass der Mittelwert da dies die Transformation des Modus ist, aber ich kenne die Standardabweichung nicht).
(Anders ausgedrückt könnte man fragen: " Konvergiert für eine Richtung von und zu einer Beta-Verteilung ?"? Ich bin nicht sicher, ob dies einfacher zu beantworten ist.)
Simulationsergebnisse
Hier zeige ich, warum ich den Verdacht habe, dass das Ergebnis normal ist (da ich es nicht mit Mathe belegen kann). Die Simulation von kann in R mit qnorm
und erfolgen rnorm
. Wählen Sie zum Beispiel die hohen Parameter und :
hist(qnorm(rbeta(5000, 3000, 7000)))
Dies sieht normal aus qqnorm
und der Shapiro-Wilk-Test (bei dem die Normalität die Nullhypothese ist) legt dies ebenfalls nahe:
qqnorm(qnorm(rbeta(5000, 3000, 7000)))
shapiro.test(qnorm(rbeta(5000, 3000, 7000)))
#>
#> Shapiro-Wilk normality test
#>
#> data: qnorm(rbeta(5000, 3000, 7000))
#> W = 0.99954, p-value = 0.2838
Um die Normalität etwas genauer zu untersuchen, führe ich 2.000 Simulationen durch, wobei jedes Mal 5.000 Werte von simuliert werden , und führe dann den Test durch, um ihn mit dem Normalen zu vergleichen. (Ich habe 5K-Werte gewählt, da dies das Maximum shapiro.test
ist, das verarbeitet werden kann, und die Leistung maximiert, um Abweichungen von der Norm zu erkennen.)
Wenn die Verteilung wirklich normal wäre, würden wir erwarten, dass die p-Werte einheitlich sind (da die Null wahr ist). Sie sind in der Tat nahezu einheitlich, was darauf hindeutet, dass die Verteilung sehr normal ist:
hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value))
Einige Experimente haben gezeigt, dass die Verteilung umso normaler wird, je höher und sind (z. B. rbeta(5000, 3, 7)
ist sie ziemlich weit vom Normalen entfernt, aber versuchen hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, 70)))$p.value))
Sie es und es scheint irgendwo dazwischen zu liegen).
quelle
hist(replicate(1000, shapiro.test(rbeta(5000, 2, 2))$p.value))
, dannhist(replicate(1000, shapiro.test(qnorm(rbeta(5000, 2, 2)))$p.value))
. Mit anderen Worten, wenn es normal, weil das Beta gleichförmig ist, wenn α und β hoch sind, ist es, weil das Beta ungefähr normal ist - aber warum funktioniert es, wenn sie gleich sind und dazwischen liegen, wo es keines ist normal oder uniform?Antworten:
Zusammenfassung
Sie haben einen Teil der unter Zentraler Grenzwertsatz für Stichprobenmediane beschriebenen Konstruktion wiederentdeckt , die eine Analyse des Medians einer Stichprobe veranschaulicht. (Die Analyse gilt offensichtlich mutatis mutandis für jedes Quantil, nicht nur für den Median). Daher ist es nicht verwunderlich, dass bei großen Beta-Parametern (entsprechend großen Stichproben) eine Normalverteilung unter der in der Frage beschriebenen Transformation auftritt. Interessant ist, wie nahe die Normalverteilung auch bei kleinen Beta-Parametern ist. Das verdient eine Erklärung.
Ich werde unten eine Analyse skizzieren. Um diesen Beitrag in einem angemessenen Umfang zu halten, ist viel suggestives Winken von Hand erforderlich: Ich möchte nur auf die Schlüsselideen hinweisen. Lassen Sie mich deshalb die Ergebnisse hier zusammenfassen:
Wenn in der Nähe von β liegt , ist alles symmetrisch. Dies bewirkt, dass die transformierte Verteilung bereits normal aussieht.α β
Die Funktionen der Form sehen an erster Stelle ziemlich normal aus, selbst für kleine Werte von α und β (vorausgesetzt, beide überschreiten 1 und ihr Verhältnis ist nicht zu groß) nahe 0 oder 1 ).Φα−1(x)(1−Φ(x))β−1 α β 1 0 1
Die scheinbare Normalität der transformierten Verteilung beruht auf der Tatsache, dass ihre Dichte aus einer Normaldichte multipliziert mit einer Funktion in (2) besteht.
Wenn und β zunehmen, kann die Abweichung von der Normalität in den übrigen Ausdrücken in einer Taylorreihe für die logarithmische Dichte gemessen werden. Der Term der Ordnung n nimmt proportional zu den ( n - 2 ) / 2 Potenzen von α und β ab . Dies impliziert, dass schließlich für ausreichend großes α und β alle Terme der Leistung n = 3 oder größer relativ klein geworden sind und nur noch ein Quadrat übrig bleibt: Dies ist genau die logarithmische Dichte einer Normalverteilung.α β n (n−2)/2 α β α β n=3
Zusammengenommen erklären diese Verhaltensweisen gut, warum selbst für kleine und β die nicht-extremen Quantile einer iid-Normal-Stichprobe ungefähr normal aussehen.α β
Analyse
Da es nützlich sein kann, zu verallgemeinern, sei F eine beliebige Verteilungsfunktion, obwohl wir F = Φ im Auge haben .F F=Φ
Die Dichtefunktion einer Beta ( α , β ) -Variablen ist definitionsgemäß proportional zug(y) (α,β)
Wenn die Wahrscheinlichkeitsintegraltransformation von x ist und f für die Ableitung von F geschrieben wird , ist es unmittelbar, dass x eine Dichte proportional zu haty=F(x) x f F x
Da es sich um eine monotone Transformation einer stark unimodalen Verteilung (Beta) handelt, ist die transformierte Verteilung auch unimodal, sofern eher seltsam ist. Untersuchen wir den Logarithmus seiner Dichte, um zu untersuchen, wie nahe er dem Normalen kommt.F
wobei eine irrelevante Normalisierungskonstante ist.C
Erweitern Sie die Komponenten von in der Taylor-Reihe, um drei um einen Wert x 0 (der einem Modus nahe kommt) zu ordnen . Zum Beispiel können wir die Erweiterung von log F as schreibenlogG(x;α,β) x0 logF
für einige mit | h | ≤ | x - x 0 | . Verwenden Sie eine ähnliche Schreibweise für log ( 1 - F ) und log f .h |h|≤|x−x0| log(1−F) logf
Lineare Ausdrücke
The linear term in(1) thereby becomes
Whenx0 is a mode of G(;α,β) , this expression is zero. Note that because the coefficients are continuous functions of x0 , as α and β are varied, the mode x0 will vary continuously too. Moreover, once α and β are sufficiently large, the cf1 term becomes relatively inconsequential. If we aim to study the limit as α→∞ and β→∞ for which α:β stays in constant proportion γ , we may therefore once and for all choose a base point x0 for which
A nice case is whereγ=1 , where α=β throughout, and F is symmetric about 0 . In that case it is obvious x0=F(0)=1/2 .
We have achieved a method whereby (a) in the limit, the first-order term in the Taylor series vanishes and (b) in the special case just described, the first-order term is always zero.
Quadratic terms
These are the sum
Comparing to a Normal distribution, whose quadratic term is−(1/2)(x−x0)2/σ2 , we may estimate that −1/(2g2(α,β)) is approximately the variance of G . Let us standardize G by rescaling x by its square root. we don't really need the details; it suffices to understand that this rescaling is going to multiply the coefficient of (x−x0)n in the Taylor expansion by (−1/(2g2(α,β)))n/2.
Remainder term
Here's the punchline: the term of ordern in the Taylor expansion is, according to our notation,
After standardization, it becomes
Both of thegi are affine combination of α and β . By raising the denominator to the n/2 power, the net behavior is of order −(n−2)/2 in each of α and β . As these parameters grow large, then, each term in the Taylor expansion after the second decreases to zero asymptotically. In particular, the third-order remainder term becomes arbitrarily small.
The case whenF is normal
The vanishing of the remainder term is particularly fast whenF is standard Normal, because in this case f(x) is purely quadratic: it contributes nothing to the remainder terms. Consequently, the deviation of G from normality depends solely on the deviation between Fα−1(1−F)β−1 and normality.
This deviation is fairly small even for smallα and β . To illustrate, consider the case α=β . G is symmetric, whence the order-3 term vanishes altogether. The remainder is of order 4 in x−x0=x .
Here is a plot showing how the standardized fourth order term changes with small values ofα>1 :
The value starts out at0 for α=β=1 , because then the distribution obviously is Normal (Φ−1 applied to a uniform distribution, which is what Beta(1,1) is, gives a standard Normal distribution). Although it increases rapidly, it tops off at less than 0.008 --which is practically indistinguishable from zero. After that the asymptotic reciprocal decay kicks in, making the distribution ever closer to Normal as α increases beyond 2 .
quelle
Convergence
Suppose thatα=β and let α→∞ and take any small ε>0 . Then var(X)→0 . By Chebyshev's inequality we have P[|X−0.5|>ε]→0 and P[|Y|>ε]→0 . This means that Y converges in probability (
not in distributionactually it converges in distribution - to singleton).Exact distribution
Denote byfX the density of beta distribution. Then your variable Y has density
FullSimplify
function in Wolfram Mathematica to see if it finds some better form.Here is the density in R so you can plot it instead of histogram.
Modification
However, you are maybe interested in distribution of
quelle
Here I present a heuristic explanation (which can be made rigorous at least asymptotically). For simplicity, takek∈N , k≥2 . Let X∼Beta(k,k) . I want to argue that Y=Φ−1(X) is approximately normal.
Now letn=2k−1 . We start by drawing n i.i.d. uniformly distributed random variables U1,…,Un . Next, form the order statistics U(1)≤…≤U(n) .
It is well known thatU(k)∼Beta(k,n+1−k) , thus:
In other words: The sample median ofn i.i.d. uniformly distributed random variables is Beta(k,k) distributed.
Now let's transform byZi=Φ−1(Ui) . Then by the probability integral transform, the Zi are i.i.d. normally distributed. Also form the order statistics of the Zi (Z(1)≤…≤Z(n) ). Since Φ−1 is strictly increasing, it follows that:
Therefore, to show thatY is approximately normal, we just have to argue that the sample median of n i.i.d. normal random variables is approximately normal.
Fork large, this can be made precise by a central limit theorem for sample medians. For k small, say k=2 , I will let everyone's gut feeling do the speaking.
Fora≠b (but not too different) one can argue similarly by using corresponding quantiles.
quelle