Wo finde ich einen großen Textkorpus? [geschlossen]
16
Ich suche einen großen (> 1000) Textkorpus zum Herunterladen. Am liebsten mit Weltnachrichten oder irgendwelchen Berichten . Ich habe nur einen mit Patenten gefunden. Irgendwelche Vorschläge?
Diese Frage scheint nicht zum Thema zu gehören, da es eher darum geht, einen Datensatz zu finden, als statistische Analysen durchzuführen
Peter Flom - Monica
2
Nun, das ist umständlich, denn diese Fragen und Antworten sind wirklich nützlich.
Sideshow Bob
@guaka, bitte stoße solche alten Posts nicht für solche geringfügigen Änderungen an, insbesondere nicht für einen Post, der geschlossen ist. Es ist wahr, dass wir es nicht bevorzugen, "Danke" zu sagen, aber für etwas dieses Molls würden wir es einfach belassen.
Es ist nicht das interessanteste (oder vielfältigste) Korpus. Die Lizenz ist auch in Bezug auf Wikileaks (gemeinfreie US-Dokumente) oder Wikinews restriktiv.
Ariddell
@ariddell Ich bin damit einverstanden, aber es wird häufig in einführenden NLP-Beispielen verwendet und ist groß genug, um beim Lernen nützlich zu sein, aber klein genug, um auf einem guten Laptop analysiert zu werden.
Antworten:
Passen die Wikileaks-Texte nicht zu Ihnen?
quelle
Was ist mit Wikinews ? Hier ist der neueste Datenbank-Dump, den ich finden konnte: http://dumps.wikimedia.org/enwikinews/20111120/
Sie möchten wahrscheinlich die "Alle Seiten, nur aktuelle Versionen." - Version.
quelle
Der reuters Textkorpus ist ein Klassiker auf diesem Gebiet und hier zu finden
quelle
http://endb-consolidated.aihit.com/datasets.htm enthält 10.000 Unternehmen mit textuellen Beschreibungen
quelle
Wenn die Aktualität kein Problem ist, können Sie es versuchen
http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version
und je nach Budget gibt es in infochimp noch viele weitere ähnliche Datensätze.
Grüße, Andy.
quelle
Wenn Sie vorberechnete n-Gramme möchten, können Sie das Google Books-Archiv durchsuchen:
http://books.google.com/ngrams/datasets
quelle