Ich suche derzeit nach beschrifteten Datensätzen, um ein Modell zu trainieren, um benannte Entitäten aus informellem Text zu extrahieren (ähnlich wie Tweets). Da in den Dokumenten in meinem Datensatz häufig Groß- und Kleinschreibung und Grammatik fehlen, suche ich nach Daten außerhalb des Bereichs, die ein bisschen "informeller" sind als die Nachrichtenartikel- und Journaleinträge, die viele der heutigen Systeme zur Erkennung von Entitäten sind trainiert am.
Irgendwelche Empfehlungen? Bisher konnte ich nur 50.000 Token von Twitter finden, die hier veröffentlicht wurden .
Antworten:
Soweit ich weiß, sind dies die Eigenschaften, die Sie in einem Beispieldatensatz suchen:
Hier einige Empfehlungen:
rvest
,scrapeR
usw.) und Python dies zu tunquelle
Überprüfen Sie diese:
Repository von Testdomänen für die Informationsextraktion: http://www.isi.edu/info-agents/RISE/repository.html
DBpedia: http://wiki.dbpedia.org/Downloads32 ( Spiegel )
Link aktualisiert:
http://www.isi.edu/integration/RISE/
https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set
quelle
Einige der Quellen, die ich verwendet habe:
Ich denke, diese Datensätze werden für Ihre Aufgabe eine große Hilfe sein
quelle