Verhältnis von Wahrscheinlichkeiten zu Verhältnis von PDFs

12

Ich verwende Bayes, um ein Clustering-Problem zu lösen. Nach einigen Berechnungen muss ich das Verhältnis zweier Wahrscheinlichkeiten ermitteln:

P(A)/P(B)

um . Diese Wahrscheinlichkeiten werden durch die Integration von zwei verschiedenen multivariaten 2D-KDEs erhalten, wie in dieser Antwort erläutert :P(H|D)

P ( B ) = x , y : g ( x , y ) < g ( R b , s b ) g ( x , y )

P(A)=x,y:f^(x,y)<f^(ra,sa)f^(x,y)dxdy
P(B)=x,y:g^(x,y)<g^(rb,sb)g^(x,y)dxdy

Dabei sind und die KDEs und die Integration erfolgt für alle Punkte unterhalb der Schwellenwerte und . Beide KDEs verwenden einen Gaußschen Kernel . Ein repräsentatives Bild eines KDE, ähnlich dem, mit dem ich arbeite, ist hier zu sehen: Integration des Kernel Density Estimator in 2D . , g (x,y) f (ra,sa) g (rb,sb)f^(x,y)g^(x,y)f^(ra,sa)g^(rb,sb)

Ich berechne die KDEs mit Hilfe einer pythonFunktion stats.gaussian_kde und nehme dafür die folgende allgemeine Form an:

KDE(x,y)=1ni=1n12h2e(xxi)2+(yyi)22h2

Wo nist die Länge meines Punktarrays und welche hBandbreite wird verwendet?

Die obigen Integrale werden unter Verwendung eines Monte-Carlo-Prozesses berechnet, der recht rechenintensiv ist. Ich habe irgendwo gelesen (wo vergessen, sorry), dass es in solchen Fällen möglich ist, das Verhältnis der Wahrscheinlichkeiten durch das Verhältnis der PDFs (KDEs) zu ersetzen, die an den Schwellenwerten ausgewertet werden, um gleichwertige Ergebnisse zu erhalten. Das interessiert mich, weil die Berechnung des KDE-Verhältnisses um Größenordnungen schneller ist als die Berechnung des Verhältnisses der Integrale mit MC.

Die Frage reduziert sich also auf die Gültigkeit dieses Ausdrucks:

P(A)P(B)=f^(ra,sa)g^(rb,sb)

Unter welchen Umständen kann ich sagen, dass diese Beziehung wahr ist?

[fester Tippfehler (EDIT)]


Hinzufügen :

Hier ist im Grunde die gleiche Frage, aber in einer mathematischeren Form.

Gabriel
quelle
1
Es ist zu beachten, dass die Existenz von geeigneten durch den Mittelwertsatz für Integrale sichergestellt ist. ra,b,sa,b
Dave
1
Ich glaube, Mills Ratio könnte relevant sein.
Whuber
@whuber dieses Verhältnis erfordert anscheinend, dass ich weiß, P(X)welchen Wert ich zu vermeiden versuche zu berechnen. Könnten Sie die Relevanz dieses Parameters etwas näher erläutern?
Gabriel

Antworten:

3

Der KDE ist eine Mischung aus Normalverteilungen. Schauen wir uns einen einzelnen an.

P(A)P(B)f

f(x,y)f(r,s)

ist äquivalent zu

x2+y2r2+s2.

ρ,θ

P(r,s)=12π02πr2+s2ρexp(ρ2/2)dρdθ=exp((r2+s2)/2)=2πf(r,s).

Betrachten Sie nun die Mischung. Weil es linear ist,

P(r,s)=1ni2πf((rxi)/h,(syi)/h)=2πh2(1ni1h2f((rxi)/h,(syi)/h))=2πh2KDE(r,s).

fP2πh2


Pff1A1f2A2A1μ>1f=f1/2+f2/21/2A11/(2μ)A2

  1. (r,s)A1f(r,s)=1/2P(r,s)=1f(r,s)/P(r,s)=1/2

  2. (r,s)A2f(r,s)1/20A11/2f(r,s)/P(r,s)=(1/(2μ))/(1/2)=1/μ

  3. fP

11/μ1(0,Σ)Σf/P[1,1/μ]


PfPχ2(2)fP muss verhältnismäßig sein.

whuber
quelle
Dies ist eine unglaublich gute Antwort, vielen Dank. Es wird eine Weile dauern, bis ich alles, was Sie hier geschrieben haben, vollständig verarbeitet habe. Ich vertraue jedoch voll und ganz Ihren Berechnungen, was bedeutet, dass ich die Frage als gelöst markiert habe. Prost.
Gabriel