Woher kommen die Wörter in / usr / share / dict / words?

9

/usr/share/dict/wordsenthält viele Wörter. Wie wird diese Liste erstellt? Sind die Inhalte für verschiedene Unices gleich? Gibt es einen Standard, der vorschreibt, was er enthalten muss?

Bisher konnte ich nur feststellen, dass die Liste unter Ubuntu / Debian aus den Wordlist- Paketen stammt, deren Beschreibungen jedoch keinen Hinweis darauf geben, wie die Listen tatsächlich erstellt wurden.

Mark Amery
quelle

Antworten:

9

Sie stellen mehrere Fragen, aber ich denke, die wichtigste ist:

Gibt es einen Standard, der vorschreibt, was er enthalten muss?

Meines Wissens nein.

Angesichts dessen sind Ihre verwandten Fragen:

Wie wird diese Liste erstellt? Sind die Inhalte für verschiedene Unices gleich?

werden beantwortet "es kommt auf jedes Unix an".

Die Konvention der eine Wortliste als Teil des Betriebssystems, das kommt aus dem spell(1)Dienstprogramm , das es für eine primitive Rechtschreibprüfung Prozedur verwendet.

Dieses Verfahren zur Rechtschreibprüfung ist in der wissenschaftlichen Arbeit "Development of a Spelling List" von MD McIlroy von Bell Labs, 1982, beschrieben .

Sie sollten im Paketmanager Ihres Betriebssystems überprüfen, woher die Rechtschreibliste stammt, wie sie generiert wird und welche Alternativen verfügbar sind.

Unter Debian GNU + Linux zum Beispiel:

  • Die /usr/share/dict/wordsDatei ist eine symbolische Verknüpfung, die mit dem Debian-System „Alternativen“ verwaltet wird.
  • Ein allgemeines Wortlistenpaket, das diesen Link bereitstellt, ist das wamericanPaket.
  • Die Paketdokumentation für wamericanZustände, deren Wortliste stammt, stammt aus dem SCOWL-Projekt (Spell Checker Oriented Word Lists) .

Viele andere Wortlistenpakete können installiert werden. Sie haben jeweils das Feld "Bietet: Wortliste":

$ aptitude search '?provides(wordlist)' | wc -l
34

Auf verschiedenen Unices müssen Sie das Paketsystem und die Dokumentation anzeigen, um die Herkunft und die Alternativen der Wortliste zu kennen.

große Nase
quelle
1
FWIW: Bei einer minimalen Installation von Centos 7 x64 (bei der die Wortdatei fehlt) yum install wordshabe ich den Trick gemacht.
Wossname