Datensatz für die Erkennung benannter Entitäten in informellem Text

18

Ich suche derzeit nach beschrifteten Datensätzen, um ein Modell zu trainieren, um benannte Entitäten aus informellem Text zu extrahieren (ähnlich wie Tweets). Da in den Dokumenten in meinem Datensatz häufig Groß- und Kleinschreibung und Grammatik fehlen, suche ich nach Daten außerhalb des Bereichs, die ein bisschen "informeller" sind als die Nachrichtenartikel- und Journaleinträge, die viele der heutigen Systeme zur Erkennung von Entitäten sind trainiert am.

Irgendwelche Empfehlungen? Bisher konnte ich nur 50.000 Token von Twitter finden, die hier veröffentlicht wurden .

Madison May
quelle
2
Empfehlen Sie fragen auf opendata.stackexchange.com
Air
@ Madison May. Haben Sie einen Datensatz gefunden? Ich suche etwas ähnliches. Vielen Dank.
Hoffer
Ich musste mich mit dem twitter ner corpus aus U. Washington begnügen (verlinkt in Originalpost).
Madison
Zu
Ihrer Information
Haben Sie einen guten annotierten englischen Korpus?
Achyuta Nanda Sahoo

Antworten:

6

Soweit ich weiß, sind dies die Eigenschaften, die Sie in einem Beispieldatensatz suchen:

  1. Textdaten
  2. Es sollte informell sein, dh Tippfehler, Slang und im Grunde etwas nicht professionell bearbeitet haben
  3. Etwas anderes als Twitter (Ich beschuldige Sie nicht, Twitter ist eine nützliche und dennoch viel zu häufig genutzte Beispiel-Datenquelle im Text-Mining.)

Hier einige Empfehlungen:

  1. E-Mails vom SpamAssassin-Korpus - Beachten Sie, dass sowohl Ham- (Nicht-Spam-) als auch Spam-Datensätze verfügbar sind
  2. MicroblogPCU-Datensatz von UCI, der aus den Microblogs von Sina Weibo-Benutzern stammt. Beachten Sie, dass die Rohtextdaten eine Mischung aus Chinesisch und Englisch sind wie es ist)
  3. Amazon Commerce prüft den Datensatz von UCI
  4. Innerhalb des bag-o-Wörter - Datensatz , versuchen , die E - Mails mit Enron
  5. Der Datensatz " Twenty Newsgroups"
  6. Diese schöne Sammlung von SMS-Spam
  7. Sie können jederzeit Ihre eigenen Textdaten aus dem Internet extrahieren. Ich bin nicht sicher , welche Sprache oder statistisches Paket , das Sie verwenden, aber XPath-basierte Pakete in R verfügbar sind ( rvest, scrapeRusw.) und Python dies zu tun
Hack-R
quelle
1
Werden diese Datasets jedoch mit benannten Entitäten kommentiert? Ich glaube, das war es, wonach OP gesucht hat.
Mr. Phil