Mit welchen frei verfügbaren Datensätzen kann ich einen Textklassifizierer trainieren?
Wir versuchen, das Engagement unserer Benutzer zu verbessern, indem wir ihm den verwandtesten Inhalt empfehlen. Daher dachten wir, wenn wir unseren Inhalt anhand einer vordefinierten Worttasche klassifizieren, können wir ihm empfehlen, Inhalte zu nutzen, indem wir sein Feedback zu einer zufälligen Anzahl bereits klassifizierter Beiträge erhalten Vor.
Wir können diese Informationen verwenden, um ihm Impulse zu empfehlen, die mit diesen Klassen gekennzeichnet sind. Wir haben jedoch festgestellt, dass der Feature-Vektor voller Nullen ist, wenn wir eine vordefinierte Worttasche verwendet haben, die nicht mit unserem Inhalt zusammenhängt. Auch Kategorien sind möglicherweise für unseren Inhalt nicht relevant. Aus diesen Gründen haben wir eine andere Lösung ausprobiert, bei der unsere Inhalte gruppiert und nicht klassifiziert werden.
Vielen Dank :)
quelle
Antworten:
Einige Standarddatensätze für die Textklassifizierung sind die 20-News-Gruppe Reuters (mit 8 und 52 Klassen) und WebKb. Sie finden alle hier .
quelle
Eine der am häufigsten verwendeten Testsammlungen für die Textkategorisierungsforschung (Link unten). Ich habe viele Male verwendet. Viel Spaß beim Erkunden :)
http://www.daviddlewis.com/resources/testcollections/reuters21578/ oder http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
quelle
Es gibt eine Reihe von Datensätzen, die von UC Irvine kostenlos zum Spielen bereitgestellt wurden . Unter diesen Datensätzen befinden sich einige Dutzend Textdatensätze , die Ihnen bei Ihrer Aufgabe helfen könnten.
Dies sind generische Datensätze. Je nach Verwendungszweck sollten sie daher nicht als einzige Daten zum Trainieren Ihrer Modelle verwendet werden. Andernfalls liefert Ihr Modell - obwohl es möglicherweise funktioniert - keine qualitativ hochwertigen Ergebnisse.
quelle
Abgesehen von den obigen Vorschlägen gibt es ein äußerst nützliches PDF - Benchmarking von Textsammlungen für Klassifizierungs- und Clustering-Aufgaben, das verschiedene Datensätze zusammen mit den Benchmarks enthält, um unsere Modelle zu testen. Dies umfasst 20ng Collection, Reuters und viele der oben vorgeschlagenen Datensätze. Ich hoffe, es hilft!
quelle