Für Linguisten und viele andere Wissenschaftler ist die Analyse der Häufigkeit der in einem Text vorkommenden Wörter ein großartiges Werkzeug. Einige kommerzielle Texteditoren und einige Websites bieten dieses Tool an.
Bei der Worthäufigkeitsanalyse werden die Wörter in absteigender Reihenfolge nach ihrer Häufigkeit sortiert. Zum Beispiel in diesem Text
Emacs Stack Exchange is a question and answer site for those using, extending, or developing the emacs text editor. It's built and run by you as part of the Stack Exchange network of Q&A sites. With your help, we're working together to build a library of detailed answers to every question about emacs.
wir haben:
56 words
9: punctuation marks
3: ,
3: .
3: a
3: emacs
3: of
2: '
2: and
2: exchange
2: question
2: stack
2: the
2: to
1: &
1: about
1: answer
1: answers
1: as
1: build
1: built
1: by
1: detailed
1: developing
1: editor
1: every
1: extending
1: for
1: help
1: is
1: it
1: library
1: network
1: or
1: part
1: q
1: re
1: run
1: s
1: site
1: sites
1: text
1: those
1: together
1: using
1: we
1: with
1: working
1: you
1: your
Ich frage mich, ob es bereits ein Paket gibt, mit dem solche Statistiken erstellt werden können.
PS Ich habe bereits verschiedene Fragen im selben Esprit gestellt und es wurde eine ausgezeichnete Antwort gegeben (ich möchte sie besser bewerten, wenn ich könnte).
Antworten:
Das Ausgabeformat (Org-Modus-Tabelle) ist von dem Link in Ihrer Frage inspiriert .
quelle
word-stats
, Sie müssen alle bewerten.punctuation-marks
bereits in der ersten Form definiert.(require 'cl)
, um denincr
Befehl zu verwenden.cl-incf
anstelle vonincf
undcl-lib
explizit zu verwenden.Bewerten Sie den folgenden Code und geben Sie die Wortfrequenz Mx in einen Puffer mit dem Text ein. Sie erhalten einen Puffer mit der Anzahl der Wörter und dem Prozentwert.
quelle