Als «k-means» getaggte Fragen

k-means ist ein Verfahren zum Partitionieren von Daten in Cluster durch Finden einer bestimmten Anzahl von Mitteln k, st, wenn Daten Clustern mit dem nächsten Mittelwert zugewiesen werden, wird die w / i-Clustersumme der Quadrate minimiert

78
Clustering auf der Ausgabe von t-SNE

Ich habe eine Anwendung, in der es nützlich wäre, ein verrauschtes Dataset zu gruppieren, bevor Sie nach Untergruppeneffekten in den Clustern suchen. Ich habe mir zuerst PCA angeschaut, aber es werden ca. 30 Komponenten benötigt, um 90% der Variabilität zu erreichen. Wenn Sie also auf nur ein paar...

54
Wie bestimme ich die richtige Anzahl von Clustern?

Wir finden die Cluster-Zentren und weisen k verschiedenen Cluster-Klassen Punkte zu. Dies ist ein sehr bekannter Algorithmus, der fast in jedem maschinellen Lernpaket im Netz zu finden ist. Aber der fehlende und wichtigste Teil meiner Meinung nach ist die Wahl eines korrekten k. Was ist der beste...

44
Ist es wichtig, Daten vor dem Clustering zu skalieren?

Ich habe dieses Tutorial gefunden , das vorschlägt, dass Sie die Skalierungsfunktion für Features vor dem Clustering ausführen sollten (ich glaube, dass sie Daten in Z-Scores konvertiert). Ich frage mich, ob das notwendig ist. Ich frage hauptsächlich, weil es einen schönen Ellbogenpunkt gibt, wenn...

29
Umgang mit hierarchischen / verschachtelten Daten beim maschinellen Lernen

Ich werde mein Problem mit einem Beispiel erklären. Angenommen, Sie möchten das Einkommen einer Person anhand einiger Attribute vorhersagen: {Alter, Geschlecht, Land, Region, Stadt}. Sie haben einen Trainingsdatensatz wie diesen train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3),...

22
Führen Sie K-Means-Clustering (oder ein Clustern seiner nahen Verwandten) nur mit einer Distanzmatrix durch, nicht mit Daten zu Punkten nach Merkmalen

Ich möchte K-Means-Clustering für Objekte ausführen, die ich habe, aber die Objekte werden nicht als Punkte im Raum beschrieben, dh nach objects x featuresDatensatz. Ich kann jedoch den Abstand zwischen zwei beliebigen Objekten berechnen (er basiert auf einer Ähnlichkeitsfunktion). Also verfüge ich...