Wo finde ich einen großen Textkorpus? [geschlossen]

16

Ich suche einen großen (> 1000) Textkorpus zum Herunterladen. Am liebsten mit Weltnachrichten oder irgendwelchen Berichten . Ich habe nur einen mit Patenten gefunden. Irgendwelche Vorschläge?

Dimitar Vouldjeff
quelle
Dieser Thread scheint kein Thema zu sein. Siehe meta.stats.stackexchange.com/questions/1032/… .
Whuber
Diese Frage scheint nicht zum Thema zu gehören, da es eher darum geht, einen Datensatz zu finden, als statistische Analysen durchzuführen
Peter Flom - Monica
2
Nun, das ist umständlich, denn diese Fragen und Antworten sind wirklich nützlich.
Sideshow Bob
@guaka, bitte stoße solche alten Posts nicht für solche geringfügigen Änderungen an, insbesondere nicht für einen Post, der geschlossen ist. Es ist wahr, dass wir es nicht bevorzugen, "Danke" zu sagen, aber für etwas dieses Molls würden wir es einfach belassen.
gung - Wiedereinsetzung von Monica

Antworten:

9

Passen die Wikileaks-Texte nicht zu Ihnen?

adamo
quelle
Aber wie könnte ich sie in .txt herunterladen
Dimitar Vouldjeff
6

Was ist mit Wikinews ? Hier ist der neueste Datenbank-Dump, den ich finden konnte: http://dumps.wikimedia.org/enwikinews/20111120/

Sie möchten wahrscheinlich die "Alle Seiten, nur aktuelle Versionen." - Version.

Mogron
quelle
Das funktioniert nicht mehr.
Vy32
dump link funktioniert nicht mehr Datensatz nach Region ist klein und veraltet
HappyCoding
6

Der reuters Textkorpus ist ein Klassiker auf diesem Gebiet und hier zu finden

richiemorrisroe
quelle
Es ist nicht das interessanteste (oder vielfältigste) Korpus. Die Lizenz ist auch in Bezug auf Wikileaks (gemeinfreie US-Dokumente) oder Wikinews restriktiv.
Ariddell
@ariddell Ich bin damit einverstanden, aber es wird häufig in einführenden NLP-Beispielen verwendet und ist groß genug, um beim Lernen nützlich zu sein, aber klein genug, um auf einem guten Laptop analysiert zu werden.
Richiemorrisroe
1

Wenn Sie vorberechnete n-Gramme möchten, können Sie das Google Books-Archiv durchsuchen:

http://books.google.com/ngrams/datasets

tdc
quelle
wie kann man das gebrauchen?
HappyCoding