Hallo, dies ist meine erste Frage im Data Science-Stack. Ich möchte einen Algorithmus für die Textklassifizierung erstellen. Angenommen, ich habe eine große Menge an Text und Artikeln. Sagen wir etwa 5000 einfache Texte. Ich benutze zuerst eine einfache Funktion, um die Häufigkeit aller vier und mehr Zeichenwörter zu bestimmen. Ich benutze dies dann als Merkmal jeder Trainingsprobe. Jetzt möchte ich, dass mein Algorithmus die Trainingssätze nach ihren Merkmalen gruppieren kann. Hier ist die Häufigkeit jedes Wortes im Artikel angegeben. (Beachten Sie, dass in diesem Beispiel jeder Artikel ein eigenes Merkmal hat, da jeder Artikel ein anderes Merkmal hat. Beispielsweise hat ein Artikel 10 "Wasser und 23" Rein "und ein anderer 8" Politik "und 14" Hebel ".) Können Sie für dieses Beispiel den bestmöglichen Clustering-Algorithmus vorschlagen?
quelle