Auswahl eines k-Werts für die LOF-Erkennungsanalyse (Local Outlier Factor)

9

Ich habe eine Reihe dreidimensionaler Daten und versuche, mithilfe der lokalen Ausreißerfaktoranalyse die eindeutigsten oder seltsamsten Werte zu identifizieren. Wie entscheidet man den k-Wert für die LOF-Analyse? Ich verstehe, was der k-Wert bestimmt, und bin daher nicht überrascht, dass ich mit unterschiedlichen k leicht unterschiedliche Ergebnisse sehe, aber ich bin mir nicht sicher, ob es Merkmale meines Datensatzes gibt, die mich zu einem Wert über andere führen sollten . Vielen Dank!

Henry D.
quelle

Antworten:

10

Wenn Sie dies hier für alle veröffentlichen, die in Zukunft auf meine Frage stoßen, empfiehlt das Originalpapier, in dem der lokale Ausreißerfaktor-Algorithmus "LOF: Identifizierung dichtebasierter lokaler Ausreißer" (Breunig et al.) Beschrieben wird, eine Methode zur Auswahl eines k-Werts . Zur Erinnerung vergleicht der LOF-Algorithmus die Dichte jedes Punktes mit der Dichte seiner nahesten Nachbarn. Die Autoren der Arbeit empfehlen, ein Minimum und ein Maximum wählen und für jeden Punkt den maximalen LOF-Wert über jedes in diesem Bereich zu nehmen. Sie bieten verschiedene Richtlinien für die Auswahl der Grenzen.kkkk

Für den Minimalwert schwanken die LOF-Werte wild um die Punkte in einer gleichmäßigen Verteilung für , wobei Punkte in einer gleichmäßigen Verteilung manchmal als Ausreißer angezeigt werden, sodass mindestens empfohlen werden . Zweitens dient der minimale Wert als minimale Größe für etwas, das als "Cluster" betrachtet werden soll, so dass Punkte relativ zu diesem Cluster Ausreißer sein können. Wenn ist und Sie eine Gruppe von Punkten und einen Punkt , enthält jeder Punkt in der Gruppe in seinen nächsten Nachbarn, und enthält diese Punkte, was dazu führt, dass sie sehr ähnliche LOFs haben. Wenn Sie also einen Punkt in der Nähe einer Gruppe von betrachten möchtenk<10min(k)=10kk=1512pppNPunkte als Ausreißer und nicht als Teil dieser Gruppe, sollte Ihr k-Wert mindestens .N

Für den Maximalwert gilt ein ähnliches Kriterium: Es sollte die maximale Anzahl von Objekten sein, die als Ausreißer betrachtet werden sollen, wenn sie zusammen gruppiert werden. Eine Gruppe von Objekten, die vom Hauptsatz isoliert sind, kann entweder ein Cluster oder Ausreißer sein. für werden sie die ersten sein; für sind sie die zweiten.NNk<Nk>N

Hoffentlich hilft dies jedem mit einem ähnlichen Problem. Das vollständige Papier ist hier , und die Diskussion der maximalen / minimalen k-Werte beginnt auf Seite 7 und geht bis Seite 9. (Sie bezeichnen den Wert als MinPts .)k

Henry D.
quelle
Ich möchte nur eines verstehen. Angenommen, ich wähle für jeden Datensatz k = 20 und generiere LOF für jeden Punkt. Dann zeige ich alle Punkte in absteigender Reihenfolge des LOF. Wenn ich jetzt die Daten analysiere, kann ich den Bereich auswählen, bis zu dem ich denke, dass die Daten ein Ausreißer sind (nach Kenntnis der Domäne). Glauben Sie, dass dies hilft? Ich bin nur ich wie jetzt, ich muss mich nicht um den Wert von k kümmern und ich benutze mein Domain-Wissen, um die Ausreißer gemäß dem LOF-Ranking zu analysieren. Danke,
Swapnil Bhure