Ich versuche, Statistiken über Zeichen- oder Wortfolgen zu sammeln, die in der englischen Sprache für die Verwendung in einem Softwareprojekt verwendet werden.
Wo kann ich eine große Menge (mehrere GB wären nett) an englischem Klartext erhalten, der eine Vielzahl von Themen abdeckt?
research
statistics
JSideris
quelle
quelle
Antworten:
Sie können die Datendumps von Wikipedia verwenden . Der XML-Daten-Dump für die englische Wikipedia , der nur die aktuellen Revisionen enthält, beträgt ungefähr 31 GB. Ich würde also sagen, dass dies ein guter Start für Ihre Recherche wäre. Der Daten-Dump ist ziemlich groß, daher sollten Sie in Betracht ziehen, die Texte mit einem SAX-Parser aus XML zu extrahieren. WikiXMLJ ist eine handliche, auf Wikipedia abgestimmte Java-API.
Und dann gibt es natürlich immer die Stack Exchange-Daten-Dumps . Die neueste Version enthält alle öffentlichen Nicht-Beta-Stack-Exchange-Sites und die entsprechenden Meta-Sites bis September 2011. Natürlich konzentrieren sich die Stack-Exchange-Posts auf den Umfang jeder Site, sodass sie wahrscheinlich nicht so allgemein sind, wie Sie es wünschen. Meta-Posts sind jedoch etwas allgemeiner, so dass Sie diese zusätzlich zu Wikipedia berücksichtigen können.
Ich glaube nicht, dass Sie etwas Besseres finden werden, besonders nicht im Klartext. Über den Data Hub stehen mehrere offene Datensätze zur Verfügung , aber ich denke, der englische Wikipedia-Datenspeicherauszug kommt dem sehr nahe, wonach Sie suchen.
quelle
Google verfügt über eine Sammlung von Datensätzen, anhand derer n-Gramm-Wahrscheinlichkeiten bestimmt werden. Wenn Sie die Bigram-Datensätze (2 Gramm) untersuchen, erhalten Sie ein gutes Bild. Es gibt viele andere Unternehmen, für die diese Analysen bereits durchgeführt wurden.
quelle
Das Projekt Gutenberg verfügt über ein großes Textkorpus in englischer Sprache, das bereits in Textform vorliegt.
quelle
Für die Statistik sehen Sie sich wahrscheinlich "Bigram Frequency in the English language" an. Schauen Sie sich an: Wiki-Bigram Stats
Beachten Sie beim Auffinden eines großen Texts, dass die Häufigkeit auf die Art des Texts abgestimmt ist. Wenn Sie beispielsweise Adressen analysieren, erhalten Sie unterschiedliche Ergebnisse aus der Analyse von Zeitungsartikeln. Wenn Sie nur testen möchten, können Sie die PDF-Datei eines beliebigen Buches (besser nicht Mathematik, Programmierung oder medizinisches Buch) verwenden und in Text konvertieren und dann Ihre Tests ausführen. Sie können auch Zeitungswebseiten in Text konvertieren und daran arbeiten.
quelle