Woher bekomme ich verschiedene Beispieltexte? [geschlossen]

14

Ich versuche, Statistiken über Zeichen- oder Wortfolgen zu sammeln, die in der englischen Sprache für die Verwendung in einem Softwareprojekt verwendet werden.

Wo kann ich eine große Menge (mehrere GB wären nett) an englischem Klartext erhalten, der eine Vielzahl von Themen abdeckt?

JSideris
quelle
3
Irgendwie
denke
@ Yannis Rizos Diese sind fantastisch: D.
JSideris
@ Yannis Rizos oh theyre hübsch ...
Sevenseacat
@YannisRizos Dies wurde vor ein paar Jahren geschlossen. Endlich kam ich dazu, die Frage so zu bearbeiten, dass sie etwas spezifischer und besser für das QA-Format ist. Kann ich es jetzt öffnen? (Du bist die einzige Person in diesem Thread, die noch Moderator ist).
JSideris

Antworten:

19

Sie können die Datendumps von Wikipedia verwenden . Der XML-Daten-Dump für die englische Wikipedia , der nur die aktuellen Revisionen enthält, beträgt ungefähr 31 GB. Ich würde also sagen, dass dies ein guter Start für Ihre Recherche wäre. Der Daten-Dump ist ziemlich groß, daher sollten Sie in Betracht ziehen, die Texte mit einem SAX-Parser aus XML zu extrahieren. WikiXMLJ ist eine handliche, auf Wikipedia abgestimmte Java-API.

Und dann gibt es natürlich immer die Stack Exchange-Daten-Dumps . Die neueste Version enthält alle öffentlichen Nicht-Beta-Stack-Exchange-Sites und die entsprechenden Meta-Sites bis September 2011. Natürlich konzentrieren sich die Stack-Exchange-Posts auf den Umfang jeder Site, sodass sie wahrscheinlich nicht so allgemein sind, wie Sie es wünschen. Meta-Posts sind jedoch etwas allgemeiner, so dass Sie diese zusätzlich zu Wikipedia berücksichtigen können.

Ich glaube nicht, dass Sie etwas Besseres finden werden, besonders nicht im Klartext. Über den Data Hub stehen mehrere offene Datensätze zur Verfügung , aber ich denke, der englische Wikipedia-Datenspeicherauszug kommt dem sehr nahe, wonach Sie suchen.

yannis
quelle
1
Das sind einige coole Ressourcen.
Hanzolo
Die Stapel werden, obwohl sie umfangreich sind, ein sehr enges Diskursfeld abdecken (aus Gründen der Notwendigkeit), so dass sie sich möglicherweise nicht gut verallgemeinern lassen.
jonsca
Oh mein Gott, diese Dateien sind riesig! Sobald ich einen Weg finde, sie zu öffnen und den ganzen XML-Mist herauszufiltern, sollte dies großartig funktionieren. Vielen Dank!
JSideris
1
@ Bizorke Froh, dass ich helfen konnte. Wenn Sie fertig sind, sollten Sie die Frage mit einem Link zu Ihrer Recherche aktualisieren.
Yannis
5

Google verfügt über eine Sammlung von Datensätzen, anhand derer n-Gramm-Wahrscheinlichkeiten bestimmt werden. Wenn Sie die Bigram-Datensätze (2 Gramm) untersuchen, erhalten Sie ein gutes Bild. Es gibt viele andere Unternehmen, für die diese Analysen bereits durchgeführt wurden.

jonsca
quelle
3
Ich habe nur dasselbe geschrieben.
Jcmeloni
@jcmeloni Großartige Köpfe!
jonsca
5

Das Projekt Gutenberg verfügt über ein großes Textkorpus in englischer Sprache, das bereits in Textform vorliegt.

Project Gutenberg bietet über 42.000 kostenlose E-Books: Wählen Sie aus kostenlosen Epub-Büchern, kostenlosen Kindle-Büchern, laden Sie sie herunter oder lesen Sie sie online.

Wir führen hochwertige E-Books: Alle unsere E-Books wurden zuvor von seriösen Verlagen veröffentlicht. Wir haben sie mit Hilfe von Tausenden von Freiwilligen digitalisiert und sorgfältig korrigiert ...

Michael Kohne
quelle
1
Ich habe über Project Gutenberg nachgedacht, aber keinen konzentrierten Datendump gefunden. Und damit ein Buch aufgenommen wird, muss es urheberrechtlich geschützt sein. Das bedeutet im Allgemeinen, dass seit der ersten Veröffentlichung des Buches 50 bis 70 Jahre vergangen sind. Daher glaube ich nicht, dass Project Gutenberg als Datensatz für die heutige Sprache repräsentativ ist.
Yannis
1
Wenn du etwas möchtest, das "für die heutige Sprache repräsentativ" ist, versuche es mit YouTube-Kommentaren. Traurig aber wahr.
Jörg W Mittag
@ JörgWMittag - autsch. Was mich wirklich stört, ist, wie nicht falsch du bist.
Michael Kohne
@ Jörg W Mittag Es ist möglich, aber dann bestimmte Wörter spezifisch auf youtube sehr häufig kommen würde, wie: YO OU UT TU UB BE, oder noch schlimmer: FA AK KE AN ND GA AY
JSideris
1

Für die Statistik sehen Sie sich wahrscheinlich "Bigram Frequency in the English language" an. Schauen Sie sich an: Wiki-Bigram Stats

Beachten Sie beim Auffinden eines großen Texts, dass die Häufigkeit auf die Art des Texts abgestimmt ist. Wenn Sie beispielsweise Adressen analysieren, erhalten Sie unterschiedliche Ergebnisse aus der Analyse von Zeitungsartikeln. Wenn Sie nur testen möchten, können Sie die PDF-Datei eines beliebigen Buches (besser nicht Mathematik, Programmierung oder medizinisches Buch) verwenden und in Text konvertieren und dann Ihre Tests ausführen. Sie können auch Zeitungswebseiten in Text konvertieren und daran arbeiten.

Keine Chance
quelle
2
Ja, mir ist klar, dass die Ergebnisse voreingenommen sein werden. Ich brauche eine Ressource, die so viele Themen wie möglich abdeckt. Ich dachte darüber nach, ein paar E-Books herunterzuladen. Das Hauptproblem ist, sie alle in Text umzuwandeln. Aber es würde nicht schaden, einige Bigramm-Statistiken nachzuschlagen (ich wusste nicht, dass 2-Buchstaben-Kombinationen so heißen).
JSideris
Danke für deinen Kommentar. Sie können PDF in Text konvertieren, indem Sie im ADOBE PDF-Reader Datei -> Als Text speichern wählen. Dieser Link kann auch von Wert sein: data-compression.com/english.html
NoChance
@EmmadKareem OP fordert mehrere GB Text an. Schlagen Sie ernsthaft vor, dass er Adobe Reader verwendet, um Text aus PDFs zu extrahieren?
Yannis
@YannisRizos, mir ist nicht aufgefallen, dass mehrere GB zwingend erforderlich sind. In diesem Fall gibt es bessere Tools, die für diesen Zweck verwendet werden können. Vielen Dank für den Hinweis.
NoChance