Wie hier sicher jeder weiß, ist das PDF der Beta-Distribution von
Ich habe überall nach einer Erklärung der Ursprünge dieser Formel gesucht, aber ich kann sie nicht finden. Jeder Artikel, den ich in der Beta-Distribution gefunden habe, scheint diese Formel zu geben, einige ihrer Formen zu veranschaulichen und dann direkt mit der Erörterung ihrer Momente fortzufahren.
Ich verwende keine mathematischen Formeln, die ich nicht ableiten und erklären kann. Für andere Distributionen (zB das Gamma oder das Binom) gibt es eine klare Ableitung, die ich lernen und verwenden kann. Aber ich kann so etwas für die Beta-Distribution nicht finden.
Meine Frage lautet also: Woher stammt diese Formel? Wie kann es aus ersten Prinzipien abgeleitet werden, in welchem Kontext es ursprünglich entwickelt wurde?
[Zur Verdeutlichung frage ich nicht, wie die Beta-Verteilung in Bayes-Statistiken verwendet werden soll oder was dies in der Praxis intuitiv bedeutet (ich habe das Baseball-Beispiel gelesen). Ich möchte nur wissen, wie man das PDF ableitet. Es gab eine frühere Frage , die etwas Ähnliches fragte, die jedoch (wie ich falsch finde) als Duplikat einer anderen Frage markiert war , die sich nicht mit dem Problem befasste, sodass ich hier bisher keine Hilfe finden konnte.]
EDIT 2017-05-06: Vielen Dank an alle für die Fragen. Ich denke, eine gute Erklärung für das, was ich will, ergibt sich aus einer der Antworten, die ich auf die Frage einiger meiner Kursleiter erhielt:
"Ich denke, die Leute könnten die normale Dichte als Grenze einer Summe von n Dingen dividiert durch sqrt (n) ableiten, und Sie können die Poissondichte aus der Vorstellung von Ereignissen ableiten, die mit einer konstanten Rate auftreten Beta-Dichte, Sie müssten eine Vorstellung davon haben, was eine Beta-Verteilung unabhängig von und logischerweise vor der Dichte macht. "
Die "ab initio" -Idee in den Kommentaren kommt dem, wonach ich suche, wahrscheinlich am nächsten. Ich bin kein Mathematiker, aber ich fühle mich am wohlsten mit Mathematik, die ich ableiten kann. Wenn die Ursprünge zu weit fortgeschritten sind, um damit fertig zu werden, sollte es so sein, aber wenn nicht, würde ich sie gerne verstehen.
quelle
Antworten:
Als ehemaliger Physiker kann ich sehen, wie es hätte abgeleitet werden können. So gehen Physiker vor:
wenn sie auf ein endliches Integral einer positiven Funktion stoßen, wie z. B. Beta-Funktion : sie definieren instinktiv eine Dichte: f ( s | x , y ) = s x - 1 ( 1 - s ) y - 1
Sie tun dies die ganze Zeit so oft mit allen Arten von Integralen, dass es reflexartig geschieht, ohne überhaupt darüber nachzudenken. Sie nennen diese Prozedur "Normalisierung" oder ähnliche Namen. Beachten Sie, dass die Dichte per Definition trivialerweise alle Eigenschaften aufweist, die Sie möchten, z. B. immer positiv und summiert sich zu eins.
Die Dichte , die ich oben angegeben habe, ist von der Beta-Verteilung.f(t)
AKTUALISIEREN
@whuber fragt, was an der Beta-Distribution so besonders ist, während die obige Logik auf eine unendliche Anzahl geeigneter Integrale angewendet werden könnte (wie ich in meiner Antwort oben angemerkt habe).
Der besondere Teil stammt aus der Binomialverteilung . Ich schreibe das PDF mit einer ähnlichen Notation wie in meiner Beta, nicht der üblichen Notation für Parameter und Variablen:
Hier - Anzahl der Erfolge und Misserfolge und s - Erfolgswahrscheinlichkeit. Sie können sehen, dass dies dem Zähler in der Beta-Distribution sehr ähnlich ist. Wenn Sie nach der vorherigen Version für die Binomial-Distribution suchen, handelt es sich um die Beta-Distribution. Es ist auch nicht überraschend , da die Domäne der Beta von 0 bis 1 ist, und das ist , was Sie in Bayes - Theorem tun: Integration über die Parameter s , die die Wahrscheinlichkeit des Erfolgs in diesem Fall wie folgt: f ( x | X ) = f ' ( X | s ) f ( s )x,y s s
hierf(s)- Wahrscheinlichkeit (Dichte) der Erfolgswahrscheinlichkeit bei den vorherigen Einstellungen der Beta-Verteilung undf'(X|s)- Dichte von dieser Datensatz (dh beobachtete Erfolge und Misserfolge) mit einer Wahrscheinlichkeits.
quelle
Thomas Bayes (1763) leitete die Beta-Verteilung [ohne diesen Namen zu verwenden] als erstes Beispiel für die posteriore Verteilung ab , und zwar vor Leonhard Eulers (1766) Arbeit an dem Beta-Integral, auf das Glen_b einige Jahre später hingewiesen hatte Euler (1729 oder 1738) [Opera Omnia, I14, 1 {24] zur Verallgemeinerung der Fakultätsfunktion weshalb die normalisierende Beta-Konstante B ( a , b ) auch als Euler-Funktion bezeichnet wird - . Davies− B(a,b) − erwähnt Wallis (1616-1703), Newton (1642-1726) und Stirling (1692-1770), die sich noch früher mit speziellen Fällen des Integrals befassen. Karl Pearson (1895) erste Familie von Verteilungen als katalogisiert Pearson Typ I .
Obwohl es nicht historisch hat in dieser Reihenfolge erscheinen, ein intuitiver Eintrag zur Verteilung Beta ist durch Fishers Verteilung, die die Verteilung eines Verhältnisses entspricht ρ = σ 2 1 / σ 2 2F(p,q)
quelle
Erstens bin ich nicht in der Lage, Konzepte in meinem Kopf mathematisch genau zu beschreiben, aber ich werde mein Bestes geben, indem ich ein einfaches Beispiel anführe:
In other words the beta distribution can be seen as the distribution of probabilities in the center of a jittered distribution.
I hope that this derivation gets somewhat close to what your instructor meant. Note that the functional forms ofg(x) and P(x0) are very flexible and reach from triangle like distributions and U-shaped distributions (see example below) to sharply peaked distributions.
FYI: I discovered this as a side effect in my doctoral work and reported about it in my thesis in the context of non-stationary neural tuning curves leading to zero-inflated spike count distributions (bimodal with a mode at zero). Applying the concept described above yielded the Beta-Poisson mixture distribution for the neural acticity. That distribution can be fit to data. The fitted parameters allow to estimate both, the distributiong(x) as well as the jitter distribution p(x0) by applying the reverse logics. The Beta-Poisson mixture is a very interesting and flexible alternative to the widely used negative binomial distribution (which is a Gamma-Poisson mixture) to model overdispersion. Below you find an example the "Jitter → Beta" - idea in action:
A: Simulated 1D trial displacement, drawn from the jitter distribution in the inset (P(jitter)∝g(x)p−1 ). The trial-averaged firing field (solid black line) is broader and has a lower peak rate as compared to the underlying tuning curve without jitter (solid blue line, parameters used: λmax=10,p=.6,q=.5 . B: The resulting distribution of λ at x0 across N=100 trials and the analytical pdf of the Beta distribution. C: Simulated spike count distribution from a Poisson process with parameters λi where i denote the indices of the trials and the resulting Beta-Poisson distribution as derived as sketched above. D: Analogous situation in 2D with random shift angles leading to the identical statistics.
quelle