Schlagen Sie Trainingsdatensätze für Textklassifizierer vor

9

Mit welchen frei verfügbaren Datensätzen kann ich einen Textklassifizierer trainieren?

Wir versuchen, das Engagement unserer Benutzer zu verbessern, indem wir ihm den verwandtesten Inhalt empfehlen. Daher dachten wir, wenn wir unseren Inhalt anhand einer vordefinierten Worttasche klassifizieren, können wir ihm empfehlen, Inhalte zu nutzen, indem wir sein Feedback zu einer zufälligen Anzahl bereits klassifizierter Beiträge erhalten Vor.

Wir können diese Informationen verwenden, um ihm Impulse zu empfehlen, die mit diesen Klassen gekennzeichnet sind. Wir haben jedoch festgestellt, dass der Feature-Vektor voller Nullen ist, wenn wir eine vordefinierte Worttasche verwendet haben, die nicht mit unserem Inhalt zusammenhängt. Auch Kategorien sind möglicherweise für unseren Inhalt nicht relevant. Aus diesen Gründen haben wir eine andere Lösung ausprobiert, bei der unsere Inhalte gruppiert und nicht klassifiziert werden.

Vielen Dank :)

Abdelmawla
quelle
1
Ich denke, weitere Details zu Ihrem Problem sind erforderlich, bevor jemand einen Datensatz empfehlen kann.
Neil Slater
3
Für welchen Zweck? Spamfilterung? Stimmungsanalyse? Ohne einen klaren Zweck ist es sehr schwierig, einen Datensatz vorzuschlagen.
lsdr
@lsdr Wenn man sich die Antworten ansieht, scheint es, dass die Frage nicht unbedingt mehr Details benötigt.
Amir Ali Akbari
@AmirAliAkbari Ich denke, sie kamen nach einer Bearbeitung. Ich habe sowieso meine enge Abstimmung zurückgezogen.
Rubens
Ein geeigneterer Ort für diese Frage ist opendata.stackexchange.com
sheldonkreger

Antworten:

14

Einige Standarddatensätze für die Textklassifizierung sind die 20-News-Gruppe Reuters (mit 8 und 52 Klassen) und WebKb. Sie finden alle hier .

Debasis
quelle
Danke :), ich habe es bereits zuvor besucht, aber ich fand, dass seine Klassifikationen schwach und nicht abstrakt genug sind oder dass es möglicherweise nicht mit meinem Inhalt zusammenhängt
Abdelmawla
5

Es gibt eine Reihe von Datensätzen, die von UC Irvine kostenlos zum Spielen bereitgestellt wurden . Unter diesen Datensätzen befinden sich einige Dutzend Textdatensätze , die Ihnen bei Ihrer Aufgabe helfen könnten.

Dies sind generische Datensätze. Je nach Verwendungszweck sollten sie daher nicht als einzige Daten zum Trainieren Ihrer Modelle verwendet werden. Andernfalls liefert Ihr Modell - obwohl es möglicherweise funktioniert - keine qualitativ hochwertigen Ergebnisse.

lsdr
quelle
1

Abgesehen von den obigen Vorschlägen gibt es ein äußerst nützliches PDF - Benchmarking von Textsammlungen für Klassifizierungs- und Clustering-Aufgaben, das verschiedene Datensätze zusammen mit den Benchmarks enthält, um unsere Modelle zu testen. Dies umfasst 20ng Collection, Reuters und viele der oben vorgeschlagenen Datensätze. Ich hoffe, es hilft!

Hima Varsha
quelle