Stichprobenverteilung des Mittelwerts einer Beta

8

Angenommen, wir haben . Was bedeutet die Stichprobenverteilung der Stichprobe? $X \sim \text{Beta}(\alpha, \beta)$

Mit anderen Worten, welcher Verteilung folgt die Stichprobe einer Beta? $\bar{X}$

distributions beta-distribution mean Josh
quelle

1

Wow - schwierige Frage. Es könnte schwierig sein, alle Werte von Alpha und Beta zu charakterisieren, da bei einigen Parametern seltsame Formen auftreten. Wenn beide jedoch größer als 1 sind, sieht es so aus, als würde es asymptotisch zu Gauß pro CLT tendieren, aber ich kann nicht sag sicher.

T3am5hark

4

Die asymptotische Verteilung eines Stichprobenmittelwerts einer Zufallsstichprobe wird von der CLT bestimmt, wenn die Varianz vorliegt, was dies nicht erfordert

α, β > 1

$\alpha,\beta>1$ .

Christoph Hanck

2

Hinweis: Siehe auch für dieselbe Frage /math/85535/sum-of-niid-beta-distributed-variables

Für den Fall einer gleichmäßigen Verteilung $\text{Beta}(1,1)$ Die Verteilung der Summe mehrerer unabhängiger Variablen (und der Mittelwert hängt damit zusammen) wurde als Irwin-Hall- Verteilung beschrieben.

Wenn

{X.}_{n} = \sum_{ich = 1}^{n} {Y.}_{ich} mit {U.}_{ich} \sim Beta (1, 1)

$X_n = \sum_{i=1}^n Y_i \quad \text{ with } \quad U_i \sim \text{Beta}(1,1)$

dann hast du einen Spline of Degree $n-1$

f_{X.} (x;; n) = \frac{1}{(n - - 1)!} \sum_{j = 0}^{n - - 1} {ein}_{j} (k, n) x^{j} zum k \leq x \leq k + 1

$f_X(x;n) = \frac{1}{(n-1)!} \sum_{j=0}^{n-1} a_j(k,n)x^j \quad \text{ for } \quad k \leq x \leq k+1$

bei dem die $a_j(k,n)$ kann durch eine Wiederholungsbeziehung beschrieben werden:

a_{j} (k, n) = {\begin{cases} 1 & k = 0, j = n - - 1 \\ 0 & k = 0, j < n - - 1 \\ {ein}_{j} (k - - 1, n) + (- - 1)^{n + k - - j - - 1} (\binom{n}{k}) (\binom{n - - 1}{j}) k^{n - - j - - 1} & k > 1 \end{cases}

$a_j(k,n) = \begin{cases} 1 & \quad k=0,j=n-1 \\ 0 & \quad k=0,j< n-1 \\ a_j(k-1,n) + (-1)^{n+k-j-1} {{n}\choose{k}} {{n-1}\choose{j}} k^{n-j-1} & \quad k>1 \end{cases}$

Sie könnten die obige Formel als durch eine wiederholte Faltung von konstruiert sehen $X_{n-1}$ mit $Y_n$ wo das Integral stückweise gelöst wird. Können wir dies möglicherweise für verteilte Beta-Variablen mit irgendwelchen verallgemeinern? $\alpha$ und $\beta$ ?

Lassen

X_{n} (α, β) = \sum_{i = 1}^{n} Y_{i} with U_{i} \sim Beta (α, β)

$X_n(\alpha,\beta) = \sum_{i=1}^n Y_i \quad \text{ with } \quad U_i \sim \text{Beta}(\alpha,\beta)$

Wir erwarten die Funktion $f_X(x;n,\alpha,\beta)$ aufgeteilt werden in $n$ Stücke (obwohl möglicherweise kein Spline mehr). Die Faltung zur Berechnung der Verteilung von $X_{n}(\alpha,\beta) = X_{n-1}(\alpha,\beta)+U_n$ wird so etwas sein wie:

f_{X.} (x;; n, α, β) = \int_{1 - - Mindest (1, n - - x)}^{Mindest (1, x)} f_{X.} (x - - y;; n - - 1, α, β) y^{α - - 1} (1 - - y)^{β - - 1} d y

$f_X(x;n,\alpha,\beta) = \int^{\text{min}(1,x)}_{1-\text{min}(1,n-x)} f_X(x-y;n-1,\alpha,\beta) y^{\alpha-1}(1-y)^{\beta-1} dy$

Zum $n=2$ ::

$f_{X} (x; n, α, β) = {\begin{cases} \int_{0}^{x} ((x - y) y)^{α - 1} ((1 - x + y) (1 - y))^{β - 1} d y & if 0 \leq x \leq 1 \\ \int_{x - 1}^{1} ((x - y) y)^{α - 1} ((1 - x + y) (1 - y))^{β - 1} d y & if 1 \leq x \leq 2 \end{cases}$
- Für Ganzzahl $\alpha$ und $\beta$ : die Begriffe wie $((x-y)y)^{\alpha-1}$ und $((1-x+y)(1-y))^{\beta-1}$ kann für ganzzahlige Werte von erweitert werden $\alpha$ und $\beta$ , so dass das Integral einfach zu lösen ist.
  
  Zum Beispiel:
  
  $\begin{matrix} f_{X} (x; 2, 2, 2) & = & {\begin{cases} \frac{1}{30} x^{3} (x^{2} - 5 x + 5) & if x \leq 1 \\ \frac{1}{30} (2 - x)^{3} (x^{2} + x - 1) & if x \geq 1 \end{cases} \\ f_{X} (x; 2, 3, 3) & = & {\begin{cases} \frac{1}{630} x^{5} (x^{4} - 9 x^{3} + 30 x^{2} - 42 x + 21) & if x \leq 1 \\ \frac{1}{630} (2 - x)^{5} (x^{4} + x^{3} - 2 x + 1) & if x \geq 1 \end{cases} \end{matrix}$ $\begin{array}{} f_X(x;2,2,2) &=& \begin{cases} \frac{1}{30} x^3(x^2-5x+5) & \quad \text{if $x \leq 1$} \\ \frac{1}{30}(2-x)^3(x^2+x-1) & \quad \text{if $x \geq 1$} \end{cases}\\ \\ f_X(x;2,3,3) &=& \begin{cases} \frac{1}{630} x^5(x^4-9x^3+30x^2-42x+21) & \quad \text{if $x \leq 1$} \\ \frac{1}{630}(2-x)^5(x^4+x^3-2x+1) & \quad \text{if $x \geq 1$} \end{cases} \end{array}$

Die Lösung für ganzzahlige Werte von $\alpha$ und $\beta$ wird auch ein Spline sein. Möglicherweise könnte dies in eine nette (oder wahrscheinlich nicht so schöne) Formel für allgemeinere Situationen (nicht nur) umgewandelt werden $n=2$ und $\alpha=\beta=2$ or $\alpha=\beta=3$ ). Aber an diesem Punkt braucht man einige Tassen Kaffee oder besser eine Infusion, um dieses Zeug anzugehen.

Sextus Empiricus
quelle

1

Ich dachte, dies sei eine interessante Frage, daher hier eine kurze visuelle Untersuchung. Zum $X\sim Beta(\alpha_1,\alpha_2)$ Ich habe zuerst 4 separate Beta-Distributionen ausgewählt (PDFs siehe unten).

Dann habe ich Probenmittel gesammelt, $\bar X = \frac{1}{n}\sum_{i=1}^n x_i$ und zeichnete die entsprechenden Histogramme wie unten gezeigt. Die Ergebnisse sehen normal aus und ich neige dazu, @ ChristophHancks Behauptung zu glauben, dass hier der zentrale Grenzwertsatz (CLT) am Werk ist.

MATLAB-Code

% Parameters
n = 5000;
K = 5000;
% Define Beta distributions
pd1 = makedist('Beta',0.25,0.45);
pd2 = makedist('Beta',0.25,2.5);
pd3 = makedist('Beta',4,0.15);
pd4 = makedist('Beta',3.5,5);
% Collect Sample Means
X1bar = zeros(K,1);
X2bar = zeros(K,1);
X3bar = zeros(K,1);
X4bar = zeros(K,1);
for k = 1:K                           % get K sample means 
    X1bar(k) = mean(random(pd1,n,1)); % take mean of n samples
    X2bar(k) = mean(random(pd2,n,1));
    X3bar(k) = mean(random(pd3,n,1));
    X4bar(k) = mean(random(pd4,n,1));
end
% Plot Beta distribution PDFs
Xsupport = 0:.01:1;

figure, hold on, box on
title('Beta(\alpha_1,\alpha_2) PDFs')
plot(Xsupport,pdf(pd1,Xsupport),'r-','LineWidth',2.2)
plot(Xsupport,pdf(pd2,Xsupport),'b-','LineWidth',2.2)
plot(Xsupport,pdf(pd3,Xsupport),'k-','LineWidth',2.2)
plot(Xsupport,pdf(pd4,Xsupport),'g-','LineWidth',2.2)
legend('(0.25,0.45)','(0.25,2.5)','(4,0.15)','(3.5,5)')

figure
s(1) = subplot(2,2,1), hold on, box on
    histogram(X1bar,'FaceColor','r')
s(2) = subplot(2,2,2), hold on, box on
    histogram(X2bar,'FaceColor','b')
s(3) = subplot(2,2,3), hold on, box on
    histogram(X3bar,'FaceColor','k')
s(4) = subplot(2,2,4), hold on, box on
    histogram(X4bar,'FaceColor','g')
title(s(1),'(0.25,0.45)')
title(s(2),'(0.25,2.5)')
title(s(3),'(4,0.15)')
title(s(4),'(3.5,5)')

Bearbeiten: Dieser Beitrag war ein schneller Versuch, dem OP etwas zu bieten. Wie bereits erwähnt, impliziert der zentrale Grenzwertsatz (CLT) , dass diese Ergebnisse für jede Verteilung mit endlicher Varianz gelten.

SecretAgentMan
quelle

2

Sie haben eine Reihe von Beispielen ausgeführt, die die CLT demonstrieren. Wie in den Kommentaren erwähnt, haben Beta-Verteilungen in diesen Beispielen nichts Besonderes: Sie können buchstäblich mit jeder Verteilung mit endlicher Varianz beginnen und identische Ergebnisse erhalten.

whuber

Du hast Recht. Ich habe diesen Kommentar positiv bewertet, aber eine Antwort gegeben, weil es keine gab. Natürlich gilt CLT für eine endliche Varianzverteilung. Ich habe sogar den Kommentator in der Antwort erwähnt. Soll ich diese Antwort löschen? Oder Community machen?

SecretAgentMan

Stichprobenverteilung des Mittelwerts einer Beta

Antworten: