Ich bin ziemlich neu in der Bayes'schen Statistik und bin auf ein korrigiertes Korrelationsmaß gestoßen , SparCC , das den Dirichlet-Prozess im Backend seines Algorithmus verwendet. Ich habe versucht, den Algorithmus Schritt für Schritt durchzugehen, um wirklich zu verstehen, was passiert, bin mir aber nicht sicher, was der alpha
Vektorparameter in einer Dirichlet-Verteilung genau bewirkt und wie er den alpha
Vektorparameter normalisiert .
Für die Implementierung wird Python
Folgendes verwendet NumPy
:
https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html
Die Dokumente sagen:
alpha: array Parameter der Verteilung (k Dimension für Stichprobe der Dimension k).
Meine Fragen:
Wie wirkt sich das
alphas
auf die Verteilung aus ?;Wie
alphas
normalisiert sich das Sein ?; undWas passiert, wenn die
alphas
Zahlen keine ganzen Zahlen sind?
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# Reproducibility
np.random.seed(0)
# Integer values for alphas
alphas = np.arange(10)
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
# Dirichlet Distribution
dd = np.random.dirichlet(alphas)
# array([ 0. , 0.0175113 , 0.00224837, 0.1041491 , 0.1264133 ,
# 0.06936311, 0.13086698, 0.15698674, 0.13608845, 0.25637266])
# Plot
ax = pd.Series(dd).plot()
ax.set_xlabel("alpha")
ax.set_ylabel("Dirichlet Draw")
Antworten:
Die Dirichlet-Verteilung ist eine multivariate Wahrscheinlichkeitsverteilung, die Variablen , so dass jedes und , das durch parametrisiert wird ein Vektor von Parametern mit positivem Wert . Die Parameter müssen keine ganzen Zahlen sein, sondern müssen nur positive reelle Zahlen sein. Sie sind in keiner Weise "normalisiert", sondern Parameter dieser Verteilung.X 1 , … , X k x i ≤ ( 0 , 1 ) ≤ N i = 1 x i = 1 α = ( α 1 , … , α k )k ≥ 2 X1, … , Xk xich∈ ( 0 , 1 ) ∑Ni = 1xich= 1 α = ( α1, … , Αk)
Die Dirichlet-Verteilung ist eine Verallgemeinerung der Beta-Verteilung in mehrere Dimensionen, sodass Sie zunächst etwas über die Beta-Verteilung lernen können. Beta ist eine univariate Verteilung einer Zufallsvariablen , die durch die Parameter und parametrisiert wird . Die gute Intuition kommt daher, wenn Sie sich daran erinnern, dass es sich um ein konjugiertes Prior für die Binomialverteilung handelt und wenn wir für den Wahrscheinlichkeitsparameter der Binomialverteilung ein Beta-Prior annehmen, das durch und parametrisiert ist , dann ist auch die posteriore Verteilung von a Betaverteilung parametrisiert vonα β α β p p α ' = α + Anzahl der Erfolge β ' = β + Anzahl der Ausfälle α βX∈ ( 0 , 1 ) α β α β p p α′= α + Anzahl der Erfolge und . Sie können sich also und als Pseudocounts (sie müssen keine ganzen Zahlen sein) von Erfolgen und Misserfolgen vorstellen (überprüfen Sie auch diesen Thread ).β′= β+ Anzahl der Ausfälle α β
Bei der Dirichlet-Verteilung handelt es sich um ein Konjugat vor der Multinomialverteilung . Wenn wir im Falle der Binomialverteilung daran denken können, weiße und schwarze Kugeln mit Ersatz aus der Urne zu zeichnen, dann zeichnen wir im Falle der Multinomialverteilung mit Ersatz Kugeln, die in Farben erscheinen, wobei jede der Farben der Bälle können mit den Wahrscheinlichkeiten . Das Dirichlet - Verteilung ist ein Konjugat vor für Wahrscheinlichkeiten und Parameter können wie folgt beschrieben werden pseudocounts von Kugeln jeder Farbe angenommen Apriorik p 1 , ... , p k p 1 , ... , p k α 1 , ... , α k α 1 , ... , α k α 1 + n 1 , ... , α k + n kN k p1, … , Pk p1, … , Pk α1, … , Αk (aber Sie sollten auch über die Fallstricke solcher Überlegungen lesen ). Im Dirichlet-Multinomial-Modell sie aktualisiert, indem sie mit den beobachteten Zählwerten in jeder Kategorie summiert werden: ähnlich wie im Fall eines Beta-Binomial-Modells.α1, … , Αk α1+ n1, … , Αk+ nk
Der höhere Wert von , das größere "Gewicht" von und der größere Betrag der gesamten "Masse" werden ihm zugewiesen (man daran, dass es insgesamt ). Wenn alle gleich sind, ist die Verteilung symmetrisch. Wenn , kann dies als Anti-Gewicht betrachtet werden, das zu Extremen hin wegdrückt , während es zu einem zentralen Wert hin anzieht, wenn es hoch ist (zentral in dem Sinne, dass alle Punkte um ihn herum konzentriert sind, nicht in der spüren, dass es symmetrisch zentral ist). Wenn , sind die Punkte gleichmäßig verteilt.X i x 1 + ⋯ + x k = 1 α i α i < 1 x i x i α 1 = ⋯ = α k = 1αich Xich x1+ ⋯ + xk= 1 αich αich< 1 xich xich α1= ⋯ = αk= 1
Dies ist in den folgenden Diagrammen zu sehen, in denen Sie trivariate Dirichlet-Verteilungen sehen können (leider können wir nur vernünftige Diagramme mit bis zu drei Dimensionen erstellen), die durch (a) , (b) , (c) , (d) .α 1 = α 2 = α 3 = 10 α 1 = 1 , α 2 = 10 , α 3 = 5 α 1 = α 2 = α 3 = 0,2α1= α2= α3= 1 α1= α2= α3= 10 α1= 1 , α2= 10 , α3= 5 α1= α2= α3= 0,2
Die Dirichlet-Verteilung wird manchmal als "Verteilung über Verteilungen" bezeichnet , da sie als Verteilung der Wahrscheinlichkeiten selbst gedacht werden kann. Beachten Sie, dass , da jeder und , dann ‚s sind , die mit den ersten und zweiten Axiome der Wahrscheinlichkeit . Sie können die Dirichlet-Verteilung also als Wahrscheinlichkeitsverteilung für diskrete Ereignisse verwenden, die durch Verteilungen wie kategorial oder multinomial beschrieben werden . Es ist nicht≤ k i = 1 x i = 1 x i kxich∈ ( 0 , 1 ) ∑ki = 1xich= 1 xich Es ist wahr, dass es sich um eine Verteilung über beliebige Verteilungen handelt. Beispielsweise bezieht es sich nicht auf Wahrscheinlichkeiten kontinuierlicher Zufallsvariablen oder sogar auf einige diskrete Variablen (z. B. beschreibt eine verteilte Poisson-Zufallsvariable Wahrscheinlichkeiten für die Beobachtung von Werten, bei denen es sich um beliebige natürliche Zahlen handelt, um a zu verwenden Dirichlet-Verteilung über ihre Wahrscheinlichkeiten, benötigen Sie eine unendliche Anzahl von Zufallsvariablen ).k
quelle
Haftungsausschluss: Ich habe noch nie mit dieser Distribution gearbeitet. Diese Antwort basiert auf diesem Wikipedia-Artikel und meiner Interpretation.
Die Dirichlet-Verteilung ist eine multivariate Wahrscheinlichkeitsverteilung mit ähnlichen Eigenschaften wie die Beta-Verteilung.
Das PDF ist wie folgt definiert:
mit , und .K≥ 2 xich∈ ( 0 , 1 ) ∑Ki = 1xich= 1
Wenn wir uns die eng verwandte Beta-Distribution ansehen:
wir können sehen, dass diese beiden Verteilungen gleich sind, wenn . Lasst uns also zuerst unsere Interpretation darauf stützen und dann auf verallgemeinern .K= 2 K> 2
In der Bayes'schen Statistik wird die Beta-Verteilung als konjugierter Prior für Binomialparameter verwendet (siehe Beta-Verteilung ). Der Prior kann als Vorkenntnisse zu und (oder in Übereinstimmung mit der Dirichlet-Verteilung und ) definiert werden. Wenn einig binomische Studie hat dann Erfolge und Ausfälle, ist die a posteriori Verteilung folgt dann als: und . (Ich werde das nicht herausfinden, da dies wahrscheinlich eines der ersten Dinge ist, die Sie mit der Bayes'schen Statistik lernen).α β α1 α2 A B α1,pos=α1+A α2,pos=α2+B
Die Beta-Verteilung repräsentiert dann eine posteriore Verteilung auf undx1 x2(=1−x1) A B
Kommen wir nun zu Ihren Fragen:
Die Normalisierung der Verteilung (Sicherstellen, dass das Integral gleich 1 ist) erfolgt durch den Term :B(α)
Nochmals, wenn wir uns den Fall ansehen, können wir sehen, dass der Normalisierungsfaktor derselbe ist wie in der Beta-Verteilung, die das Folgende verwendete:K=2
Dies erstreckt sich auf
quelle