Als «clustering» getaggte Fragen

14
oderMetriken für Clustering?

Verwendet jemand die Metriken L1L1L_1 oder L.5L.5L_.5 für das Clustering und nicht L2L2L_2 ? Über das überraschende Verhalten von Distanzmetriken im hochdimensionalen Raum gaben Aggarwal et al. (2001) an, dass L1L1L_1 istfür hochdimensionale Data-Mining-Anwendungendurchweg vorzuziehen als die...

14
k-bedeutet vs k-Median?

Ich weiß, dass es einen K-Mittelwert-Clustering-Algorithmus und einen K-Median gibt. Einer, der den Mittelwert als Mittelpunkt des Clusters verwendet, und der andere verwenden den Median. Meine Frage ist: wann / wo welche

14
Wie misst man die Form eines Clusters?

Ich weiß, dass diese Frage nicht genau definiert ist, aber einige Cluster sind in der Regel elliptisch oder liegen im Raum niedrigerer Dimensionen, während die anderen nichtlineare Formen aufweisen (in 2D- oder 3D-Beispielen). Gibt es ein Maß für die Nichtlinearität (oder "Form") von Clustern?...

13
LARS gegen Koordinatenabstieg für das Lasso

Welche Vor- und Nachteile hat die Verwendung von LARS [1] im Vergleich zur Verwendung der Koordinatenabsenkung für die Anpassung der L1-regulierten linearen Regression? Ich interessiere mich hauptsächlich für Leistungsaspekte (meine Probleme sind Nin der Regel Hunderttausende und p<20). Es sind...

13
Vergleiche von Clustering-Ergebnissen verstehen

Ich experimentiere mit der Klassifizierung von Daten in Gruppen. Ich bin ziemlich neu in diesem Thema und versuche, die Ergebnisse einiger Analysen zu verstehen. Anhand von Beispielen aus Quick-R werden mehrere RPakete vorgeschlagen. Ich habe versucht, zwei dieser Pakete zu verwenden ( fpcmit der...

13
Eine Routine zur Auswahl von eps und minPts für DBSCAN

DBSCAN ist laut einiger Literatur der am häufigsten zitierte Cluster-Algorithmus und kann beliebige Formcluster basierend auf der Dichte finden. Es hat zwei Parameter eps (als Nachbarschaftsradius) und minPts (als minimale Nachbarn, um einen Punkt als Kernpunkt zu betrachten), von denen ich glaube,...

13
Stand der Technik bei der Deduplizierung

Was sind die neuesten Methoden bei der Deduplizierung von Datensätzen? Die Deduplizierung wird manchmal auch als Datensatzverknüpfung, Entitätsauflösung, Identitätsauflösung, Zusammenführen / Löschen bezeichnet. Ich kenne zum Beispiel CBLOCK [1]. Ich würde mich freuen, wenn die Antworten auch...