Ich mache eine Kernel-Dichteschätzung mit einem Satz gewichteter Punkte (dh jede Probe hat ein Gewicht, das nicht notwendig ist) in N-Dimensionen. Außerdem befinden sich diese Stichproben nur in einem metrischen Raum (dh wir können einen Abstand zwischen ihnen definieren), aber sonst nichts. Zum Beispiel können wir weder den Mittelwert der Stichprobenpunkte noch die Standardabweichung bestimmen oder eine Variable im Vergleich zu einer anderen skalieren. Der Kernel ist nur von dieser Entfernung und dem Gewicht jeder Probe betroffen:
In diesem Zusammenhang versuche ich, eine robuste Schätzung für die Kernelbandbreite , die möglicherweise räumlich variiert und vorzugsweise eine genaue Rekonstruktion des Trainingsdatensatzes x i ergibt . Bei Bedarf können wir davon ausgehen, dass die Funktion relativ flüssig ist.
Ich habe versucht, die Entfernung zum ersten oder zweiten Nachbarn zu nutzen, aber es gibt ziemlich schlechte Ergebnisse. Ich habe versucht, eine einmalige Optimierung durchzuführen, aber ich habe Schwierigkeiten, in Nd in diesem Zusammenhang eine gute Optimierungsmaßnahme zu finden, sodass sehr schlechte Schätzungen gefunden werden, insbesondere für die Trainingsmuster selbst. Ich kann die gierige Schätzung nicht basierend auf der normalen Annahme verwenden, da ich die Standardabweichung nicht berechnen kann. Ich habe Referenzen gefunden, die Kovarianzmatrizen verwenden, um anisotrope Kernel zu erhalten, aber auch dies würde in diesem Bereich nicht gelten ...
Jemand hat eine Idee oder eine Referenz?
quelle
Antworten:
quelle
In Matlab File Exchange gibt es eine kde-Funktion, die die optimale Bandbreite unter der Annahme bereitstellt, dass ein Gaußscher Kernel verwendet wird: Kernel Density Estimator .
Selbst wenn Sie Matlab nicht verwenden, können Sie diesen Code nach seiner Methode zur Berechnung der optimalen Bandbreite durchsuchen. Dies ist eine hoch bewertete Funktion beim Dateiaustausch und ich habe sie oft verwendet.
quelle