Ein typischer Fall für die Anwendung der Dichteschätzung ist die Neuheitserkennung, auch bekannt als Ausreißererkennung, bei der nur (oder meistens) Daten eines Typs vorliegen, Sie sich jedoch für sehr seltene, qualitativ unterschiedliche Daten interessieren, die erheblich von diesen abweichen diese häufigen Fälle.
Beispiele sind Betrugserkennung, Erkennung von Systemfehlern usw. Dies sind Situationen, in denen es sehr schwierig und / oder kostspielig ist, Daten der Art zu erfassen, an der Sie interessiert sind. Diese seltenen Fälle, dh Fälle mit geringer Eintrittswahrscheinlichkeit.
In den meisten Fällen interessiert es Sie nicht, die exakte Verteilung genau zu schätzen, sondern die relativen Chancen (wie wahrscheinlich ist es, dass eine bestimmte Stichprobe ein tatsächlicher Ausreißer ist, im Gegensatz dazu, dass Sie keine ist).
Es gibt Dutzende von Tutorials und Rezensionen zum Thema. Das eine könnte eine gute sein , mit zu beginnen.
BEARBEITEN: Für einige Leute scheint es seltsam, eine Dichteschätzung zur Erkennung von Ausreißern zu verwenden. Lassen Sie uns zunächst eines vereinbaren: Wenn jemand ein Mischungsmodell an seine Daten anpasst, führt er tatsächlich eine Dichteschätzung durch. Ein Mischungsmodell repräsentiert eine Wahrscheinlichkeitsverteilung.
kNN und GMM hängen tatsächlich zusammen: Sie sind zwei Methoden zur Schätzung einer solchen Wahrscheinlichkeitsdichte. Dies ist die Grundidee für viele Ansätze in der Neuheitserkennung. Zum Beispiel dieses basierend auf kNNs, dieser andere basierend auf Parzen - Fenster (die eben diese Idee am Anfang des Papiers betonen) und viele andere .
Es scheint mir (aber es ist nur meine persönliche Wahrnehmung), dass die meisten, wenn nicht alle an dieser Idee arbeiten. Wie würden Sie die Idee eines ungewöhnlichen / seltenen Ereignisses ausdrücken?
Ich vermute, dass der Mean-Shift-Algorithmus ( http://en.wikipedia.org/wiki/Mean-shift ) ein gutes Beispiel für eine effiziente und geeignete Anwendung von KDE ist. Der Zweck dieses Algorithmus besteht darin, die Maxima einer Dichtefunktion bei gegebenen Daten zu lokalisieren.( xich)
quelle
Typischerweise wird KDE als Alternative zu Histogrammen angepriesen. Der Hauptvorteil von KDE gegenüber Histogrammen besteht in diesem Zusammenhang darin, die Auswirkungen willkürlich gewählter Parameter auf die visuelle Ausgabe des Verfahrens zu verringern. Insbesondere (und wie im obigen Link dargestellt) muss der Benutzer in KDE keine Start- und Endpunkte angeben.
quelle