Ich möchte ein System entwerfen, das einen bestimmten Textabschnitt kategorisieren und den Kontext identifizieren kann:
- Wird mit benutzergenerierten Textabschnitten (wie Kommentaren / Fragen / Antworten) geschult.
- Jeder Gegenstand im Trainingssatz wird mit markiert. Also zum Beispiel ("Kategorie 1", "Textabsatz")
- Es wird Hunderte von Kategorien geben
Was wäre der beste Ansatz, um ein solches System aufzubauen? Ich habe mir einige verschiedene Optionen angesehen und im Folgenden finden Sie eine Liste möglicher Lösungen. Ist Word2Vec / NN derzeit die beste Lösung?
- Rekursives neuronales Tensornetzwerk, das mit gemittelten Word2Vec-Daten gespeist wird
- RNTN und The Paragraph Vector ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
- TF-IDF wird in einem Deep Belief Network verwendet
- TF-IDF und logistische Regression
- Wortsack und Naive Bayes Klassifizierung
Antworten:
1) Die Max-Entropie (logistische Regression) auf TFIDF-Vektoren ist ein guter Ausgangspunkt für viele NLP-Klassifizierungsaufgaben.
2) Word2vec ist definitiv einen Versuch wert und mit Modell 1 zu vergleichen. Ich würde vorschlagen, die Doc2Vec-Variante zum Betrachten von Sätzen / Absätzen zu verwenden.
Quoc Le und Tomas Mikolov. Verteilte Darstellungen von Sätzen und Dokumenten. http://arxiv.org/pdf/1405.4053v2.pdf
Gensim (Python) hat ein schönes Doc2vec-Modell.
quelle