Ich arbeite derzeit mit einem Datensatz mit einer Vielzahl von Dokumentlängen - von einem einzelnen Wort bis zu einer ganzen Textseite. Darüber hinaus variieren die grammatikalische Struktur und die Verwendung von Interpunktion von Dokument zu Dokument erheblich. Ziel ist es, diese Dokumente in eine von etwa 10 bis 15 Kategorien einzuteilen. Ich verwende derzeit die Ridge-Regression und die logistische Regression für die Aufgabe sowie den CV für die Alpha-Werte von Ridge. Die Merkmalsvektoren sind tf-idf ngramme.
Kürzlich habe ich festgestellt, dass längere Dokumente viel seltener kategorisiert werden. Warum könnte dies der Fall sein und wie kann man für diese Art von Variation "normalisieren"? Wie geht man allgemein mit verschiedenen Datensätzen um? Sollten Dokumente basierend auf Metriken wie Dokumentlänge, Verwendung von Interpunktion, grammatikalischer Genauigkeit usw. gruppiert und dann durch verschiedene Klassifizierer geführt werden?
quelle
Antworten:
Ich bin nicht sicher, wie Sie ein Regressionsframework für die Dokumentklassifizierung anwenden. Die Art und Weise, wie ich mich dem Problem nähere, besteht darin, einen standardmäßigen diskriminativen Klassifizierungsansatz wie SVM anzuwenden.
Bei einem diskriminativen Klassifizierungsansatz ist der Begriff der Ähnlichkeit oder des umgekehrten Abstands zwischen Datenpunkten (in diesem Fall Dokumenten) von entscheidender Bedeutung. Zum Glück für Dokumente gibt es eine Standardmethode zum Definieren der paarweisen Ähnlichkeit. Dies ist das Standard- Cosinus-Ähnlichkeitsmaß , bei dem die Normalisierung der Dokumentlänge verwendet wird, um unterschiedliche Dokumentlängen zu berücksichtigen.
In der Kosinusähnlichkeit würden Sie praktisch mit relativen Termgewichten arbeiten, die durch Dokumentlängen normalisiert sind, und daher sollte die Diversität der Dokumentlänge bei der Ähnlichkeitsberechnung kein großes Problem darstellen.
Man muss auch vorsichtig sein, wenn man idf in Termgewichten anwendet. Wenn die Anzahl der Dokumente nicht signifikant groß ist, kann das IDF-Maß statistisch ungenau sein, wodurch den Begriffsgewichten Rauschen hinzugefügt wird. Es ist auch eine Standardpraxis, Stoppwörter und Satzzeichen zu ignorieren.
quelle