Zum Experimentieren möchten wir das in vielen Tweets eingebettete Emoji als Grundlage für Wahrheitsdaten / Trainingsdaten für eine einfache quantitative Analyse der Senitierung verwenden. Tweets sind normalerweise zu unstrukturiert, als dass NLP gut funktionieren könnte.
Auf jeden Fall gibt es 722 Emoji in Unicode 6.0 und wahrscheinlich werden weitere 250 in Unicode 7.0 hinzugefügt.
Gibt es eine Datenbank (wie zB SentiWordNet), die Sentiment-Annotationen für sie enthält?
(Beachten Sie, dass SentiWordNet auch mehrdeutige Bedeutungen zulässt . Betrachten Sie zB lustig , was nicht nur positiv ist: "das schmeckt lustig" ist wahrscheinlich nicht positiv ... dasselbe gilt ;-)
zum Beispiel. Aber ich denke nicht, dass dies schwieriger ist für Emoji als für normale Wörter ...)
Wenn Sie Erfahrung damit haben, sie für die Stimmungsanalyse zu verwenden, würde ich mich freuen, von Ihnen zu hören.
quelle
Antworten:
Insgesamt 972 Emoji sind nicht wirklich so groß, um sie nicht manuell beschriften zu können, aber ich bezweifle, dass sie als gute Grundwahrheit funktionieren werden. Quellen wie Twitter sind voller Ironie, Sarkasmus und anderer kniffliger Situationen, in denen emotionale Symbole (wie Emoji oder Emoticon) etwas anderes bedeuten als normale Interpretationen. Zum Beispiel kann jemand schreiben "xxx betrogen ihre Kunden, und jetzt sind sie selbst betrogen! Ha ha ha!: D". Dies ist definitiv ein negativer Kommentar, aber der Autor freut sich, xxx company in Schwierigkeiten zu sehen und fügt somit ein positives Emoticon hinzu. Diese Fälle sind nicht so häufig, aber definitiv nicht geeignet für die Grundwahrheit.
Viel häufiger wird Emoticon als Ausgangswert für die Erfassung des tatsächlichen Datensatzes verwendet . In diesem Artikel verwenden Autoren beispielsweise Emoticon- und emotionale Hash-Tags, um ein Lexikon mit Wörtern zu finden, die für die weitere Klassifizierung nützlich sind.
quelle
Ich fand dieses Github-Repo nützlich (ein guter Anfang): https://github.com/wooorm/emoji-emotion Liste der Emoji, deren Wertigkeit mit einer ganzen Zahl zwischen minus fünf (negativ) und plus fünf (positiv) bewertet wurde.
Siehe Liste der unterstützten Unicode-Emojis: https://github.com/wooorm/emoji-emotion/blob/master/Support.md
quelle