Ich verwende Bayes, um ein Clustering-Problem zu lösen. Nach einigen Berechnungen muss ich das Verhältnis zweier Wahrscheinlichkeiten ermitteln:
um . Diese Wahrscheinlichkeiten werden durch die Integration von zwei verschiedenen multivariaten 2D-KDEs erhalten, wie in dieser Antwort erläutert :
P ( B ) = ∬ x , y : g ( x , y ) < g ( R b , s b ) g ( x , y )
Dabei sind und die KDEs und die Integration erfolgt für alle Punkte unterhalb der Schwellenwerte und . Beide KDEs verwenden einen Gaußschen Kernel . Ein repräsentatives Bild eines KDE, ähnlich dem, mit dem ich arbeite, ist hier zu sehen: Integration des Kernel Density Estimator in 2D . , g (x,y) f (ra,sa) g (rb,sb)
Ich berechne die KDEs mit Hilfe einer python
Funktion stats.gaussian_kde und nehme dafür die folgende allgemeine Form an:
Wo n
ist die Länge meines Punktarrays und welche h
Bandbreite wird verwendet?
Die obigen Integrale werden unter Verwendung eines Monte-Carlo-Prozesses berechnet, der recht rechenintensiv ist. Ich habe irgendwo gelesen (wo vergessen, sorry), dass es in solchen Fällen möglich ist, das Verhältnis der Wahrscheinlichkeiten durch das Verhältnis der PDFs (KDEs) zu ersetzen, die an den Schwellenwerten ausgewertet werden, um gleichwertige Ergebnisse zu erhalten. Das interessiert mich, weil die Berechnung des KDE-Verhältnisses um Größenordnungen schneller ist als die Berechnung des Verhältnisses der Integrale mit MC.
Die Frage reduziert sich also auf die Gültigkeit dieses Ausdrucks:
Unter welchen Umständen kann ich sagen, dass diese Beziehung wahr ist?
[fester Tippfehler (EDIT)]
Hinzufügen :
Hier ist im Grunde die gleiche Frage, aber in einer mathematischeren Form.
P(X)
welchen Wert ich zu vermeiden versuche zu berechnen. Könnten Sie die Relevanz dieses Parameters etwas näher erläutern?Antworten:
Der KDE ist eine Mischung aus Normalverteilungen. Schauen wir uns einen einzelnen an.
ist äquivalent zu
Betrachten Sie nun die Mischung. Weil es linear ist,
quelle