Ich habe ein Problem damit, eine große Menge von Sätzen nach ihrer Bedeutung in Gruppen zusammenzufassen. Dies ähnelt einem Problem, wenn Sie viele Sätze haben und diese nach ihrer Bedeutung gruppieren möchten.
Welche Algorithmen werden dazu vorgeschlagen? Ich kenne die Anzahl der Cluster im Voraus nicht (und da weitere Daten kommen, können sich auch die Cluster ändern). Welche Funktionen werden normalerweise verwendet, um die einzelnen Sätze darzustellen?
Ich versuche jetzt die einfachsten Funktionen mit nur einer Liste von Wörtern und einem Abstand zwischen Sätzen, die wie folgt definiert sind:
(A und B sind entsprechende Wortmengen in Satz A und B)
Macht es überhaupt Sinn?
Ich versuche, den Mean-Shift- Algorithmus aus der Scikit-Bibliothek auf diese Entfernung anzuwenden , da keine Anzahl von Clustern im Voraus erforderlich ist.
Wenn jemand bessere Methoden / Ansätze für das Problem vorschlägt, wird dies sehr geschätzt, da ich noch neu im Thema bin.
quelle