Als «bag-of-words» getaggte Fragen

Wie wird die Streuung in Worthäufigkeitsdaten gemessen?

Wie kann ich das Ausmaß der Streuung in einem Vektor von Wortzahlen quantifizieren? Ich suche nach einer Statistik, die für Dokument A hoch ist, weil sie viele verschiedene Wörter enthält, die selten vorkommen, und niedrig für Dokument B, weil sie ein Wort (oder einige Wörter) enthält, die häufig...