Wie kann man Cluster schön plotten?

7

Ich habe einen großen Textdatensatz geclustert. Jeder Cluster wird durch einen Schwerpunkt der dazugehörigen vektorisierten Texte, die Anzahl der Texte, das Erstellungsdatum und andere Parameter dargestellt. Ich kann die Cluster nicht in einem n-dimensionalen Raum darstellen. Welche Möglichkeiten habe ich?

Federico Caccia
quelle
Suche nach Holoviews
Aditya
Das Lätzchen ist großartig @Aditya!
Federico Caccia
Ein Beispielplot mit Datashader aus demselben .. datascience.stackexchange.com/a/28659/35644 @Federico Caccia
Aditya

Antworten:

3

T-SNE ist ein weiterer Algorithmus zur Verringerung der Dimensionalität, der im Artikel in der anderen Antwort nicht erwähnt wird. Wird für SEHR hochdimensionale Daten verwendet, wenn Sie einige Einbettungen für Ihren Datensatz trainiert haben. Referenz hier . Python-Standardbibliothek hier .

Prost

Pavel Savine
quelle
2

Mehrere Möglichkeiten:

viele mehr ...

Kasra Manshaei
quelle
1

Sie können einen Dimensionsreduktionsalgorithmus (wie die Hauptkomponentenanalyse) verwenden, um die Anzahl der Dimensionen der Daten auf 2 oder 3 zu reduzieren, und dann Streudiagramme mit den reduzierten Variablen durchführen und sie entsprechend dem Cluster färben, zu dem sie gehören. In diesem Blogpost wird etwas Ähnliches getan.

David Masip
quelle
Ich habe Tausende von Dimensionen, so dass PCA zu viel Informationsverlust verursachen kann. Und ich möchte nur die Schwerpunkte jedes Clusters zeichnen. Ich denke, der beste Weg ist, die Erstellungszeit gegen ein anderes Feature zu zeichnen und dem Punkt (der Blase) einen Radius zu geben, der proportional zur Anzahl der Elemente in diesem Cluster ist.
Federico Caccia