Ich habe einen großen Textdatensatz geclustert. Jeder Cluster wird durch einen Schwerpunkt der dazugehörigen vektorisierten Texte, die Anzahl der Texte, das Erstellungsdatum und andere Parameter dargestellt. Ich kann die Cluster nicht in einem n-dimensionalen Raum darstellen. Welche Möglichkeiten habe ich?
clustering
text-mining
plotting
matplotlib
Federico Caccia
quelle
quelle
Antworten:
T-SNE ist ein weiterer Algorithmus zur Verringerung der Dimensionalität, der im Artikel in der anderen Antwort nicht erwähnt wird. Wird für SEHR hochdimensionale Daten verwendet, wenn Sie einige Einbettungen für Ihren Datensatz trainiert haben. Referenz hier . Python-Standardbibliothek hier .
Prost
quelle
Mehrere Möglichkeiten:
viele mehr ...
quelle
Sie können einen Dimensionsreduktionsalgorithmus (wie die Hauptkomponentenanalyse) verwenden, um die Anzahl der Dimensionen der Daten auf 2 oder 3 zu reduzieren, und dann Streudiagramme mit den reduzierten Variablen durchführen und sie entsprechend dem Cluster färben, zu dem sie gehören. In diesem Blogpost wird etwas Ähnliches getan.
quelle