Woher kommt die Beta-Distribution?

Wie hier sicher jeder weiß, ist das PDF der Beta-Distribution $X \sim B(a,b)$ von

$f(x) = \frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1}$

Ich habe überall nach einer Erklärung der Ursprünge dieser Formel gesucht, aber ich kann sie nicht finden. Jeder Artikel, den ich in der Beta-Distribution gefunden habe, scheint diese Formel zu geben, einige ihrer Formen zu veranschaulichen und dann direkt mit der Erörterung ihrer Momente fortzufahren.

Ich verwende keine mathematischen Formeln, die ich nicht ableiten und erklären kann. Für andere Distributionen (zB das Gamma oder das Binom) gibt es eine klare Ableitung, die ich lernen und verwenden kann. Aber ich kann so etwas für die Beta-Distribution nicht finden.

Meine Frage lautet also: Woher stammt diese Formel? Wie kann es aus ersten Prinzipien abgeleitet werden, in welchem Kontext es ursprünglich entwickelt wurde?

[Zur Verdeutlichung frage ich nicht, wie die Beta-Verteilung in Bayes-Statistiken verwendet werden soll oder was dies in der Praxis intuitiv bedeutet (ich habe das Baseball-Beispiel gelesen). Ich möchte nur wissen, wie man das PDF ableitet. Es gab eine frühere Frage , die etwas Ähnliches fragte, die jedoch (wie ich falsch finde) als Duplikat einer anderen Frage markiert war , die sich nicht mit dem Problem befasste, sodass ich hier bisher keine Hilfe finden konnte.]

EDIT 2017-05-06: Vielen Dank an alle für die Fragen. Ich denke, eine gute Erklärung für das, was ich will, ergibt sich aus einer der Antworten, die ich auf die Frage einiger meiner Kursleiter erhielt:

"Ich denke, die Leute könnten die normale Dichte als Grenze einer Summe von n Dingen dividiert durch sqrt (n) ableiten, und Sie können die Poissondichte aus der Vorstellung von Ereignissen ableiten, die mit einer konstanten Rate auftreten Beta-Dichte, Sie müssten eine Vorstellung davon haben, was eine Beta-Verteilung unabhängig von und logischerweise vor der Dichte macht. "

Die "ab initio" -Idee in den Kommentaren kommt dem, wonach ich suche, wahrscheinlich am nächsten. Ich bin kein Mathematiker, aber ich fühle mich am wohlsten mit Mathematik, die ich ableiten kann. Wenn die Ursprünge zu weit fortgeschritten sind, um damit fertig zu werden, sollte es so sein, aber wenn nicht, würde ich sie gerne verstehen.

probability mathematical-statistics pdf beta-distribution history Will Bradshaw
quelle

Abgeleitet von was? Wenn der binomial-conjugate-prior-Ansatz nicht akzeptabel ist, gibt es hier mehrere Alternativen (z. B. Ordnungsstatistik einer einheitlichen Zufallsvariablen, Anteile von Gamma-Variablen).

GeoMatt22

Hinweis: Die gesamte Geschichte der Beta-Distribution finden Sie auf der unglaublichen Wikipedia-Seite zu dieser Distribution, die nahezu jedes Detail enthält!

Xi'an

Die vorherige Frage wurde als Duplikat der anderen Frage markiert, nachdem das OP in einem Kommentar klargestellt hatte, wonach sie gesucht wurden. whuber hat dort die gleiche Frage gestellt wie @ Geomatt22 hier: "Eine Ableitung bedeutet eine logische Verbindung von etwas, das angenommen wird, zu etwas, das hergestellt werden soll. Was möchten Sie annehmen ?"

Scortchi

@Aksakal aber dann ist die Frage zu breit - es kann auf alle möglichen Arten abgeleitet werden; Wenn Sie Recht haben, schließe ich es als zu weit

gefasst,

Einige kurze Diskussion eines kleinen historischen Kontext ist hier (zumindest in Bezug auf seine Beziehung zu der unvollständigen Beta - Funktion). Es hat Verbindungen zur Gammaverteilung und zu vielen anderen Verteilungen und tritt auf eine Reihe von verschiedenen Wegen auf, die durchaus vernünftig sind. Wie Xi'an betont, hat es auch historische Ursprünge im Pearson-System . Welche Art von Antwort suchen Sie hier? Was ist gegeben / was muss abgeleitet werden?

Glen_b

Antworten:

Als ehemaliger Physiker kann ich sehen, wie es hätte abgeleitet werden können. So gehen Physiker vor:

wenn sie auf ein endliches Integral einer positiven Funktion stoßen, wie z. B. Beta-Funktion : sie definieren instinktiv eine Dichte:

B (x, y) = \int_{0}^{1} t^{x - 1} (1 - t)^{y - 1} d t

$B(x,y) = \int_0^1t^{x-1}(1-t)^{y-1}\,dt$

wobei

f (s | x, y) = \frac{s^{x - 1} (1 - s)^{y - 1}}{\int_{0}^{1} t^{x - 1} (1 - t)^{y - 1} d t} = \frac{s^{x - 1} (1 - s)^{y - 1}}{B (x, y)},

$f(s|x,y)=\frac{s^{x-1}(1-s)^{y-1}}{\int_0^1t^{x-1}(1-t)^{y-1}\,dt}=\frac{s^{x-1}(1-s)^{y-1}}{B(x,y)},$

0 < s < 1

$0<s<1$

Sie tun dies die ganze Zeit so oft mit allen Arten von Integralen, dass es reflexartig geschieht, ohne überhaupt darüber nachzudenken. Sie nennen diese Prozedur "Normalisierung" oder ähnliche Namen. Beachten Sie, dass die Dichte per Definition trivialerweise alle Eigenschaften aufweist, die Sie möchten, z. B. immer positiv und summiert sich zu eins.

Die Dichte , die ich oben angegeben habe, ist von der Beta-Verteilung. $f(t)$

AKTUALISIEREN

@whuber fragt, was an der Beta-Distribution so besonders ist, während die obige Logik auf eine unendliche Anzahl geeigneter Integrale angewendet werden könnte (wie ich in meiner Antwort oben angemerkt habe).

Der besondere Teil stammt aus der Binomialverteilung . Ich schreibe das PDF mit einer ähnlichen Notation wie in meiner Beta, nicht der üblichen Notation für Parameter und Variablen:

f^{'} (x, y | s) = (\binom{y + x}{x}) s^{x} (1 - s)^{y}

$f'(x,y|s) = \binom {y+x} x s^x(1-s)^{y}$

Hier - Anzahl der Erfolge und Misserfolge und - Erfolgswahrscheinlichkeit. Sie können sehen, dass dies dem Zähler in der Beta-Distribution sehr ähnlich ist. Wenn Sie nach der vorherigen Version für die Binomial-Distribution suchen, handelt es sich um die Beta-Distribution. Es ist auch nicht überraschend , da die Domäne der Beta von 0 bis 1 ist, und das ist , was Sie in Bayes - Theorem tun: Integration über die Parameter , die die Wahrscheinlichkeit des Erfolgs in diesem Fall wie $x,y$ $s$ $s$ hier- Wahrscheinlichkeit (Dichte) der Erfolgswahrscheinlichkeit bei den vorherigen Einstellungen der Beta-Verteilung und- Dichte von dieser Datensatz (dh beobachtete Erfolge und Misserfolge) mit einer Wahrscheinlichkeit.

\hat{f} (x | X) = \frac{f^{'} (X | s) f (s)}{\int_{0}^{1} f^{'} (X | s) f (s) d s},

$\hat f(x|X)=\frac{f'(X|s)f(s)}{\int_0^1 f'(X|s)f(s)ds},$

f (s)

$f(s)$

f^{'} (X | s)

$f'(X|s)$

s

$s$

Aksakal
quelle

@ Xi'an OP scheint sich nicht für Geschichte zu interessieren.

Aksakal

"Erklärung der Ursprünge dieser Formel ... in welchem Kontext auch immer sie ursprünglich entwickelt wurde" klingt für mich nach Geschichte :-).

whuber

Ich glaube, man kann sich gleichzeitig für Geschichte und erste Prinzipien interessieren. :-) Obwohl Ihre Antwort mathematisch korrekt ist, ist sie leider viel zu allgemein: Man kann eine Dichte jeder nicht-negativen Funktion mit einem endlichen Integral erstellen. Was ist das Besondere an dieser Distributionsfamilie? Als solches scheint Ihr Ansatz keine der beiden Sichtweisen zu befriedigen.

whuber

@ WillBradshaw, ja. Normalerweise betrachten wir die Binomialverteilung als eine Funktion der Anzahl von Fehlern (oder Erfolgen), wenn die Wahrscheinlichkeit und die Anzahl von Versuchen als Parameter gegeben sind. Auf diese Weise ist es eine diskrete Verteilung . Betrachtet man es jedoch als eine Funktion der Wahrscheinlichkeiten angesichts der Anzahl der Erfolge und Misserfolge als Parameter, wird es zu einer Beta-Verteilung, sobald Sie es neu skalieren , übrigens zu einer kontinuierlichen Verteilung.

Aksakal

Der Wikipedia-Artikel über die Beta-Distribution führt ihn auf Karl Pearson zurück, genau wie von @ Xi'an vorgeschlagen. Stigler gibt in seinem Buch " Die Geschichte der Statistik: Die Messung der Unsicherheit vor 1900" einen kurzen Überblick über Pearsons Herleitung in moderner Notation.

whuber

Thomas Bayes (1763) leitete die Beta-Verteilung [ohne diesen Namen zu verwenden] als erstes Beispiel für die posteriore Verteilung ab , und zwar vor Leonhard Eulers (1766) Arbeit an dem Beta-Integral, auf das Glen_b einige Jahre später hingewiesen hatte Euler (1729 oder 1738) [Opera Omnia, I14, 1 {24] zur Verallgemeinerung der Fakultätsfunktion weshalb die normalisierende Beta-Konstante auch als Euler-Funktion bezeichnet wird . Davies $-$ $B(a,b)$ $-$ erwähnt Wallis (1616-1703), Newton (1642-1726) und Stirling (1692-1770), die sich noch früher mit speziellen Fällen des Integrals befassen. Karl Pearson (1895) erste Familie von Verteilungen als katalogisiert Pearson Typ I .

Obwohl es nicht historisch hat in dieser Reihenfolge erscheinen, ein intuitiver Eintrag zur Verteilung Beta ist durch Fishers Verteilung, die die Verteilung eines Verhältnisses entspricht $F(p,q)$

ϱ = {\hat{σ}}_{1}^{2} / {\hat{σ}}_{2}^{2} p {\hat{σ}}_{1}^{2} \sim χ_{p}^{2} q {\hat{σ}}_{1}^{2} \sim χ_{q}^{2}

$\varrho=\hat\sigma^2_1\big/\hat\sigma_2^2\qquad p\hat\sigma_1^2\sim\chi^2_p\quad q\hat\sigma_1^2\sim\chi^2_q$

\frac{p ϱ}{q + p ϱ} \sim B (p / 2, q / 2)

$\frac{p\varrho}{q+p\varrho}\sim B(p/2,q/2)$

ω \sim B (a, b)

$\omega\sim B(a,b)$

\frac{ω / a}{(1 - ω) / b} \sim F (2 a, 2 b)

$\dfrac{\omega/a}{(1-\omega)/b}\sim F(2a,2b)$

B (a, b)

$B(a,b)$

F (p, q)

$F(p,q)$

f_{p, q} (x) \propto {p x / q}^{p / 2 - 1} (1 + p x / q)^{- (p + q) / 2}

Xi'an
quelle

+1. Es könnte erwähnenswert sein, dass K. Pearson die Beta-Verteilungen nicht nur "katalogisierte": Er leitete sie über Lösungen einer Familie von Differentialgleichungen ab, die von einer Beziehung inspiriert waren, die er zwischen Differentialgleichungen für das Binom und Differentialgleichungen für die Normalverteilung beobachtete. Die Verallgemeinerung der Binomialdifferenzgleichung auf die hypergeometrische Verteilung ergab eine Verallgemeinerung der Differentialgleichung, deren Lösungen die Beta-Verteilungen "Typ I" und "Typ II" enthielten. Dies ist genau die Art von Ab-initio- Ableitung, nach der das OP zu suchen scheint.

whuber

Ich denke, ich kann viel lernen, indem ich diese Antwort studiere. Im Moment ist es für mich zu weit fortgeschritten, aber wenn ich Zeit habe, werde ich zurückkommen und die Themen untersuchen, die Sie erwähnen, und dann erneut versuchen, es zu verstehen. Danke vielmals. :)

Will Bradshaw

Erstens bin ich nicht in der Lage, Konzepte in meinem Kopf mathematisch genau zu beschreiben, aber ich werde mein Bestes geben, indem ich ein einfaches Beispiel anführe:

$\lambda$

\begin{array}{rcl} λ = g (x) = λ_{m a x} - (q | x - x_{0} |)^{\frac{1}{q}}, q > 0, 0 \leq λ \leq λ_{m a x} \end{array}

$\begin{eqnarray} \lambda=g(x)=\lambda_{max}-(q|x-x_0|)^\frac{1}{q},~q > 0,~0 \leq \lambda \leq \lambda_{max} \end{eqnarray}$

x_{0}

$x_0$

q = 1 / 2

$q=1/2$

$x_0$ $g(x)$ $P(x_0) = C\cdot g(x)^{p-1})$ $P(\lambda)d\lambda=P(x_0)dx_0$ $\lambda$

\begin{array}{rcl} P (λ) = P (g^{- 1} (λ)) | \frac{d g^{- 1} (λ)}{d λ} | = C^{'} \cdot λ^{p - 1} \cdot (λ_{m a x} - λ)^{q - 1} \end{array}

$\begin{eqnarray}P(\lambda) = P(g^{-1}(\lambda)) \biggl|\frac{dg^{-1}(\lambda)}{d\lambda}\biggl| = C' \cdot \lambda^{p-1} \cdot (\lambda_{max} - \lambda)^{q-1}\end{eqnarray}$

$C'$ is the beta function. For the standard parametrization of the beta distribution we would set $\lambda_{max} = 1$ .

In other words the beta distribution can be seen as the distribution of probabilities in the center of a jittered distribution.

I hope that this derivation gets somewhat close to what your instructor meant. Note that the functional forms of $g(x)$ and $P(x_0)$ are very flexible and reach from triangle like distributions and U-shaped distributions (see example below) to sharply peaked distributions.

FYI: I discovered this as a side effect in my doctoral work and reported about it in my thesis in the context of non-stationary neural tuning curves leading to zero-inflated spike count distributions (bimodal with a mode at zero). Applying the concept described above yielded the Beta-Poisson mixture distribution for the neural acticity. That distribution can be fit to data. The fitted parameters allow to estimate both, the distribution $g(x)$ as well as the jitter distribution $p(x_0)$ by applying the reverse logics. The Beta-Poisson mixture is a very interesting and flexible alternative to the widely used negative binomial distribution (which is a Gamma-Poisson mixture) to model overdispersion. Below you find an example the "Jitter $\rightarrow$ Beta" - idea in action:

A: Simulated 1D trial displacement, drawn from the jitter distribution in the inset ( $P(jitter)\propto g(x)^{p-1}$ ). The trial-averaged firing field (solid black line) is broader and has a lower peak rate as compared to the underlying tuning curve without jitter (solid blue line, parameters used: $\lambda_{max} = 10, p = .6, q=.5$ . B: The resulting distribution of $\lambda$ at $x_0$ across N=100 trials and the analytical pdf of the Beta distribution. C: Simulated spike count distribution from a Poisson process with parameters $\lambda_i$ where i denote the indices of the trials and the resulting Beta-Poisson distribution as derived as sketched above. D: Analogous situation in 2D with random shift angles leading to the identical statistics.

Jojo
quelle