Warum scheint sich PDF von Dirichlet Distribution nicht in 1 zu integrieren?

8

Ich habe versucht, den erwarteten Wert einer Funktion einer Zufallsvariablen mit einer Dirichlet-Verteilung zu finden, indem ich ihr Produkt mit der Dirichlet-Dichtefunktion über einen Simplex in R integriert habe.

Um zu überprüfen, ob ich die richtige Funktion in R angewendet habe, habe ich versucht, die Dichtefunktion über den gesamten Simplex zu integrieren, wobei ich erwartet habe, 1 zu erhalten. Ich habe jedoch immer wieder die Dichtefunktion für eine Dirichlet-Verteilung mit n in sqrt (n) integrierten Kategorien erhalten (using R-Paket SimplicialCubature).

Ich nahm an, dass dies falsch sein muss, aber dann habe ich mir die Dichtefunktion für 2 Kategorien angesehen und den Fall betrachtet, in dem die Alphas = (1,1) sind. Dann ist die Dichtefunktion einheitlich 1 (unter Verwendung der Dichtefunktion von https://en.wikipedia.org/wiki/Dirichlet_distribution ). Das Integral der Dichtefunktion über dem 1-Simplex gibt also nur die Länge des 1-Simplex an. Aber das ist sqrt (2), wie ich mit dem R-Code gefunden habe.

Was fehlt mir hier?

EBartrum
quelle

Antworten:

12

Mit zwei Variablen definieren Sie ein Liniensegment in , wie Sie bereits betont haben. Aufgrund der Simplex-Einschränkung ist jedoch eine dieser beiden Variablen hinsichtlich der Angabe der Dichte redundant , da zwischen und eine Eins-zu-Eins-Beziehung besteht . Daher wird die Dichte über freien Variablen angegeben (dh in ).R2x 2 K - 1 R.x1x2K1R

Dies wird tatsächlich in der ersten Zeile dieses Abschnitts des Wikipedia-Artikels hervorgehoben, wenn auch sehr subtil.

Daher wird Ihre Dichtefunktion:

Dir1,1(x1,1x1)=Γ(2)Γ(1)2(x1)0(1x1)0=1

Deshalb,

01Dir1,1(x1,1x1)dx1=1

Antwort auf OP-Kommentar

Aufgrund der Simplex-Einschränkungen ist die Dirichlet-Dichte mit zwei Variablen in tatsächlich entartet , wie meine obige Konstruktion zeigt (es ist nur eine Variable erforderlich). Während es wahr ist, hat es eine Dichte von , aber es hat keine Dichte von auf dem Liniensegment, das mit . Was die obige Konstruktion zeigt , ist , dass die marginale Dichte einen Wert von . Ihre Verwirrung entsteht dadurch, dass Sie als freie Variable betrachten. In diesem Fall unterstützt das Dirichlet 11(1,0R211( 0 , 1 ) 1 x 2 R 2(1,0)(0,1)1x2R2hätte einen Bereich ungleich Null. Diese Intuition ist in Fällen wie dem bivariaten Gaußschen in Ordnung, in denen die beiden Variablen nicht perfekt korreliert sind, aber in diesem Fall nicht.

Wir können dies formal wie folgt ableiten:

Sei eine Zahl in , die den Abstand von zu entlang des Verbindungsliniensegments angibt . Somit identifiziert jeder Wert von ein eindeutiges Paar. Unter Verwendung dieser Notation läuft Ihre Annahme, dass die Dichte entlang dieser Linie auf Folgendes hinaus:[ 0 , L(1,0)[0,2](1,0)L ( x 1 , x 2 ) 1(0,1)L(x1,x2)1

P(L[a,b])=ba

Wir können jedoch durch eine formale Behandlung der Gelenkdichte von zeigen, dass dies nicht der Fall ist :x1,x2

PL(L[a,b])=PX1,X2[(x1,x2)A[a,b]]

WobeiA[a,b]:={(u,v):u[1b2,1a2],v=1u]

Berechnen wir nun :PL(L[a,b])

PL(L[a,b])=A[a,b]dPX1,X2=A[a,b]dPX1dPX2|X1=A[a,b]1dPX1=1b21a21du=

(1a2)(1b2)=12(ba)

Wo die dritte Gleichheit zustande kommt, weil für (dh es ist keine Dichte, sondern eine bei )X 2 = 1 - X 1 1 - X 1dPX2|X1=1X2=1X11X1

Wie Sie sehen können, haben wir die Normalisierungskonstante für die Dichte entlang des Liniensegments in wiederhergestellt . Tatsächlich ist diese (entartete) Gelenkdichte nur eine lineare Transformation eines der beiden Ränder (einer funktioniert). Dies führt dazu, dass der Bereich der Wahrscheinlichkeitsdichte von nach , daher muss die Dichte zum Kompensieren abnehmen. R2112R212


quelle
1
Vielen Dank, ich stimme der Logik Ihres Schreibens zu, aber ich kann das in meinem Kopf nicht mit der Tatsache in Einklang bringen, dass die Funktion den konstanten Wert 1 und die Zeile die Länge sqrt (2) hat. Warum sollte das Integral nicht sqrt (2) geben?
EBartrum
@EBartrum Ich werde einige Klarstellung gegen 7:30 EDT hinzufügen
3
@EBartrum fügte einige weitere Details hinzu, um den Beitrag abzurunden (ich weiß, dass Sie bereits akzeptiert haben, aber andere möchten möglicherweise die zusätzlichen Details)