Kernelbandbreite bei der Schätzung der Kerneldichte

10

Ich mache eine Kernel-Dichteschätzung mit einem Satz gewichteter Punkte (dh jede Probe hat ein Gewicht, das nicht notwendig ist) in N-Dimensionen. Außerdem befinden sich diese Stichproben nur in einem metrischen Raum (dh wir können einen Abstand zwischen ihnen definieren), aber sonst nichts. Zum Beispiel können wir weder den Mittelwert der Stichprobenpunkte noch die Standardabweichung bestimmen oder eine Variable im Vergleich zu einer anderen skalieren. Der Kernel ist nur von dieser Entfernung und dem Gewicht jeder Probe betroffen:

f (x) = \frac{1.}{\sum w e i g h t s_{i}} * \sum \frac{w e i g h t_{i}}{h} * K e r n e l (\frac{d i s t a n c e (x, x_{i})}{h})

$f(x) = \frac{1.}{\sum weights_i} * \sum\frac{weight_i}{h} * Kernel(\frac{distance(x,x_i)}{h})$

In diesem Zusammenhang versuche ich, eine robuste Schätzung für die Kernelbandbreite , die möglicherweise räumlich variiert und vorzugsweise eine genaue Rekonstruktion des Trainingsdatensatzes ergibt . Bei Bedarf können wir davon ausgehen, dass die Funktion relativ flüssig ist. $h$ $x_i$

Ich habe versucht, die Entfernung zum ersten oder zweiten Nachbarn zu nutzen, aber es gibt ziemlich schlechte Ergebnisse. Ich habe versucht, eine einmalige Optimierung durchzuführen, aber ich habe Schwierigkeiten, in Nd in diesem Zusammenhang eine gute Optimierungsmaßnahme zu finden, sodass sehr schlechte Schätzungen gefunden werden, insbesondere für die Trainingsmuster selbst. Ich kann die gierige Schätzung nicht basierend auf der normalen Annahme verwenden, da ich die Standardabweichung nicht berechnen kann. Ich habe Referenzen gefunden, die Kovarianzmatrizen verwenden, um anisotrope Kernel zu erhalten, aber auch dies würde in diesem Bereich nicht gelten ...

Jemand hat eine Idee oder eine Referenz?

pdf smoothing kernel-smoothing WhitAngl
quelle

Wenn Sie die Entfernung messen können, können Sie einen Mittelwert messen. Ist das richtig? Ich könnte sagen "Ich verwende den Kosinusabstand für Wörter", also hat ein "gemeines Wort nicht wirklich viel Bedeutung", aber ich verstehe nicht, warum es nicht noch berechnet werden konnte. Sie könnten sagen, dass Sie sich in einem Ordnungsraum befinden, sodass der Mittelwert nicht kontinuierlich bewertet wird. Warum ist der Mittelwert undefinierbar?

EngrStudent

3

$k$

shabbychef
quelle

2

In Matlab File Exchange gibt es eine kde-Funktion, die die optimale Bandbreite unter der Annahme bereitstellt, dass ein Gaußscher Kernel verwendet wird: Kernel Density Estimator .

Selbst wenn Sie Matlab nicht verwenden, können Sie diesen Code nach seiner Methode zur Berechnung der optimalen Bandbreite durchsuchen. Dies ist eine hoch bewertete Funktion beim Dateiaustausch und ich habe sie oft verwendet.

Elpezmuerto
quelle

Kernelbandbreite bei der Schätzung der Kerneldichte

Antworten: