Inspiriert von dieser Frage frage ich mich, ob an Themenmodellen für große Sammlungen von extrem kurzen Texten gearbeitet wurde. Meiner Intuition nach sollte Twitter eine natürliche Inspiration für solche Modelle sein. Nach einigen begrenzten Experimenten sieht es jedoch so aus, als ob Standardthemenmodelle (LDA usw.) mit dieser Art von Daten nur eine sehr geringe Leistung erbringen.
Kennt jemand etwas, das in diesem Bereich geleistet wurde? In diesem Artikel geht es um das Anwenden von LDA auf Twitter, aber es interessiert mich wirklich, ob es andere Algorithmen gibt, die im Kontext mit kurzen Dokumenten eine bessere Leistung erzielen.
references
text-mining
topic-models
natural-language
Martin O'Leary
quelle
quelle
Antworten:
Dies ist eine späte Antwort, aber sie kann für andere nützlich sein, die nach ähnlichen Recherchen und Tools für dieses Problem suchen:
Weiwei Guo aus Columbia implementierte Code für die Modellierung von Kurztextthemen. Er beschrieb die Implementierung in dem Artikel "Modellieren von Sätzen im latenten Raum" ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) und der Code ist hier verfügbar: http: // www .cs.columbia.edu / ~ weiwei / code.html
Obwohl dies keine Themenmodellierung ist, können Sie LibShortText verwenden, wenn Sie eine Klassifizierungsaufgabe mit kurzen Texten haben. Aus der Beschreibung ihrer Website
"LibShortText ist ein Open-Source-Tool für die Klassifizierung und Analyse von Kurztexten. Es kann beispielsweise die Klassifizierung von Titeln, Fragen, Sätzen und Kurznachrichten übernehmen ..."
http://www.csie.ntu.edu.tw/~cjlin/libshorttext/
quelle
Obwohl ich mit seiner Arbeit nicht besonders vertraut bin, weiß ich, dass Jacob Eisenstein in der Textanalyse und in grafischen Modellen in Twitter-Daten gearbeitet hat. In diesem Artikel wird insbesondere eine Anwendung der Themenmodellierung in Twitter-Daten und Microblogs beschrieben.
Edit: eigentlich nach dem Lesen der Zeitung ein bisschen mehr, sagen sie:
Vielleicht hilft dieses Papier nicht viel, aber vielleicht führen Sie auch andere Eisenstein-Publikationen in die richtige Richtung.
quelle
Ein kürzlich veröffentlichtes Papier mit dem Titel " Ein Biterm-Themenmodell für Kurztext " (WWW13) hat einige Fortschritte in diesem Thema erzielt. Hier ist der Code dafür
quelle