Wenn Sie dies hier für alle veröffentlichen, die in Zukunft auf meine Frage stoßen, empfiehlt das Originalpapier, in dem der lokale Ausreißerfaktor-Algorithmus "LOF: Identifizierung dichtebasierter lokaler Ausreißer" (Breunig et al.) Beschrieben wird, eine Methode zur Auswahl eines k-Werts . Zur Erinnerung vergleicht der LOF-Algorithmus die Dichte jedes Punktes mit der Dichte seiner nahesten Nachbarn. Die Autoren der Arbeit empfehlen, ein Minimum und ein Maximum wählen und für jeden Punkt den maximalen LOF-Wert über jedes in diesem Bereich zu nehmen. Sie bieten verschiedene Richtlinien für die Auswahl der Grenzen.kkkk
Für den Minimalwert schwanken die LOF-Werte wild um die Punkte in einer gleichmäßigen Verteilung für , wobei Punkte in einer gleichmäßigen Verteilung manchmal als Ausreißer angezeigt werden, sodass mindestens empfohlen werden . Zweitens dient der minimale Wert als minimale Größe für etwas, das als "Cluster" betrachtet werden soll, so dass Punkte relativ zu diesem Cluster Ausreißer sein können. Wenn ist und Sie eine Gruppe von Punkten und einen Punkt , enthält jeder Punkt in der Gruppe in seinen nächsten Nachbarn, und enthält diese Punkte, was dazu führt, dass sie sehr ähnliche LOFs haben. Wenn Sie also einen Punkt in der Nähe einer Gruppe von betrachten möchtenk<10min(k)=10kk=1512pppNPunkte als Ausreißer und nicht als Teil dieser Gruppe, sollte Ihr k-Wert mindestens .N
Für den Maximalwert gilt ein ähnliches Kriterium: Es sollte die maximale Anzahl von Objekten sein, die als Ausreißer betrachtet werden sollen, wenn sie zusammen gruppiert werden. Eine Gruppe von Objekten, die vom Hauptsatz isoliert sind, kann entweder ein Cluster oder Ausreißer sein. für werden sie die ersten sein; für sind sie die zweiten.NNk<Nk>N
Hoffentlich hilft dies jedem mit einem ähnlichen Problem. Das vollständige Papier ist hier , und die Diskussion der maximalen / minimalen k-Werte beginnt auf Seite 7 und geht bis Seite 9. (Sie bezeichnen den Wert als MinPts .)k