Welche Klassifizierungsalgorithmen sollten Sie versuchen, um Textdaten in 300 Kategorien zu klassifizieren?

8

Ich habe 40000 Zeilen Textdaten der Gesundheitsdomäne. Daten haben eine Spalte für Text (2-5 Sätze) und eine Spalte für ihre Kategorie. Ich möchte das in 300 Kategorien einteilen. Einige Kategorien sind unabhängig, während andere etwas verwandt sind. Die Verteilung der Daten auf die Kategorien ist ebenfalls nicht einheitlich, dh einige der Kategorien (etwa 40 von ihnen) haben weniger Daten über 2-3 Zeilen.

Ich füge die Protokollwahrscheinlichkeit jeder Klasse / Kategorie hinzu. (ODER Verteilung der Klassen) hier. Klassenvorheriger Logarithmus der Wahrscheinlichkeiten (Logklassenverteilung der Daten)

Alok Nayak
quelle
2
Benötigen Sie weitere Informationen. Wie ist die Beziehung zwischen den Kategorien? Schließen sich die Kategorien gegenseitig aus? Gibt es kategoriale Überschneidungen?
Ryan J. Smith
3
Willkommen bei Data Science! Derzeit ist Ihre Frage von sehr geringer Qualität. Sie können keine qualitativ hochwertigen Antworten erwarten, ohne gut beschriebene Fragen zu stellen. Bitte geben Sie weitere Informationen an (bessere Beschreibung der Daten, Ihres Hintergrunds, der Programmiersprachen, der untersuchten Ansätze usw.).
Wojciech Walczak

Antworten:

8

Im Allgemeinen ist die Klassifizierung nach Naive Bayes (NB) unter Verwendung eines einfachen Wortsackmodells ein guter Ausgangspunkt für solche Probleme. Hier sind einige Folien, die NB für die Verarbeitung natürlicher Sprache beschreiben . Dieser Ansatz ist nicht besonders ausgefallen, aber er ist ziemlich einfach zu implementieren und bietet Ihnen einen Ausgangspunkt für die Erweiterung.

Sobald Sie erste Ergebnisse gefunden haben, die von einer Unabhängigkeit zwischen Ihren Funktionen und Ihren Ausgabeetiketten ausgehen, haben Sie wahrscheinlich ein besseres Gefühl dafür, wo das Modell schwach ist. Ab diesem Zeitpunkt können Sie ein Feature-Engineering (möglicherweise TF-IDF ) sowie eine Nachbearbeitung anwenden , um Beispiele zu verarbeiten, die verwandten Kategorien zugewiesen werden.

Ryan J. Smith
quelle
1
Ich schätze Ihre Antwort und die Referenzen hier, auch wenn die Frage vage ist. Es ist wirklich hilfreich für mich und wahrscheinlich auch für viel mehr Menschen, die gerade ihre Füße nass machen. Vielen Dank! :)
Brian Topping
Vielen Dank, ich habe angefangen, mit naiven Bayes und Feature Engineering im Allgemeinen zu arbeiten. Irgendwelche anderen Dinge außer naiven Bayes, die ich versuchen sollte?
Alok Nayak
Nun, Sie haben immer noch nicht sehr viele Details zu den Daten selbst oder den Einzelheiten Ihrer Arbeit angegeben, daher ist es sehr schwierig, Ihnen konkrete Vorschläge zu machen. Das Beste, was ich sagen kann, ist, eine sequentielle Struktur in Ihr Modell und Ihre Funktionen zu integrieren, entweder mithilfe von Bigrams oder Markov-Modellen / Finite-State-Maschinen.
Ryan J. Smith