Ich habe 40000 Zeilen Textdaten der Gesundheitsdomäne. Daten haben eine Spalte für Text (2-5 Sätze) und eine Spalte für ihre Kategorie. Ich möchte das in 300 Kategorien einteilen. Einige Kategorien sind unabhängig, während andere etwas verwandt sind. Die Verteilung der Daten auf die Kategorien ist ebenfalls nicht einheitlich, dh einige der Kategorien (etwa 40 von ihnen) haben weniger Daten über 2-3 Zeilen.
Ich füge die Protokollwahrscheinlichkeit jeder Klasse / Kategorie hinzu. (ODER Verteilung der Klassen) hier.
machine-learning
classification
nlp
text-mining
Alok Nayak
quelle
quelle
Antworten:
Im Allgemeinen ist die Klassifizierung nach Naive Bayes (NB) unter Verwendung eines einfachen Wortsackmodells ein guter Ausgangspunkt für solche Probleme. Hier sind einige Folien, die NB für die Verarbeitung natürlicher Sprache beschreiben . Dieser Ansatz ist nicht besonders ausgefallen, aber er ist ziemlich einfach zu implementieren und bietet Ihnen einen Ausgangspunkt für die Erweiterung.
Sobald Sie erste Ergebnisse gefunden haben, die von einer Unabhängigkeit zwischen Ihren Funktionen und Ihren Ausgabeetiketten ausgehen, haben Sie wahrscheinlich ein besseres Gefühl dafür, wo das Modell schwach ist. Ab diesem Zeitpunkt können Sie ein Feature-Engineering (möglicherweise TF-IDF ) sowie eine Nachbearbeitung anwenden , um Beispiele zu verarbeiten, die verwandten Kategorien zugewiesen werden.
quelle