DBSCAN ist laut einiger Literatur der am häufigsten zitierte Cluster-Algorithmus und kann beliebige Formcluster basierend auf der Dichte finden. Es hat zwei Parameter eps (als Nachbarschaftsradius) und minPts (als minimale Nachbarn, um einen Punkt als Kernpunkt zu betrachten), von denen ich glaube, dass sie in hohem Maße davon abhängen.
Gibt es eine Routine oder eine allgemein verwendete Methode, um diese Parameter auszuwählen?
clustering
dbscan
Mehraban
quelle
quelle
Antworten:
Es gibt zahlreiche Veröffentlichungen, in denen Methoden zur Auswahl dieser Parameter vorgeschlagen werden.
Am bemerkenswertesten ist OPTICS, eine DBSCAN-Variante, die den Parameter epsilon überflüssig macht. Es wird ein hierarchisches Ergebnis erzeugt, das grob als "Ausführen von DBSCAN mit jedem möglichen epsilon" angesehen werden kann.
Für MinPts, ich schlage nicht auf einem automatischen Verfahren verlassen, sondern auf Ihrem Domain - Wissen .
Ein guter Clustering-Algorithmus verfügt über Parameter, mit denen Sie ihn an Ihre Bedürfnisse anpassen können.
Ein Parameter, den Sie übersehen haben, ist die Distanzfunktion. Das erste, was Sie für DBSCAN tun müssen, ist, eine gute Distanzfunktion für Ihre Anwendung zu finden . Verlassen Sie sich nicht darauf, dass der euklidische Abstand für jede Anwendung der beste ist!
quelle
k
Klassifizierung des nächsten Nachbarn ansehen, können Sie dies auch für den minPts-Parameter sagen. Ich denke, der Hauptunterschied ist, dass es für die Entfernung eine "oft" sinnvolle Voreinstellung gibt: Euklidische Entfernung; wohingegen für minPts der Wert datenspezifisch ist.