Wie wird die Streuung in Worthäufigkeitsdaten gemessen?

10

Wie kann ich das Ausmaß der Streuung in einem Vektor von Wortzahlen quantifizieren? Ich suche nach einer Statistik, die für Dokument A hoch ist, weil sie viele verschiedene Wörter enthält, die selten vorkommen, und niedrig für Dokument B, weil sie ein Wort (oder einige Wörter) enthält, die häufig vorkommen.

Wie misst man allgemein die Streuung oder "Ausbreitung" in nominalen Daten?

Gibt es eine Standardmethode in der Textanalyse-Community?

Geben Sie hier die Bildbeschreibung ein

Geben Sie hier die Bildbeschreibung ein

dB '
quelle

Antworten:

10

Für Wahrscheinlichkeiten (Anteile oder Anteile) , die zu 1 summiert werden, enthält die Familie mehrere Vorschläge für Maßnahmen (Indizes, Koeffizienten, was auch immer) in diesem Gebiet. Somitpipia[ln(1/pi)]b

  1. a=0,b=0 gibt die Anzahl der beobachteten unterschiedlichen Wörter zurück, was am einfachsten zu bedenken ist, unabhängig davon, ob Unterschiede zwischen den Wahrscheinlichkeiten ignoriert werden. Dies ist immer nützlich, wenn auch nur als Kontext. In anderen Bereichen kann dies die Anzahl der Unternehmen in einem Sektor, die Anzahl der an einem Standort beobachteten Arten usw. sein. Nennen wir dies im Allgemeinen die Anzahl der verschiedenen Elemente .

  2. a=2,b=0 gibt die Gini-Turing-Simpson-Herfindahl-Hirschman-Greenberg-Summe der quadratischen Wahrscheinlichkeiten zurück, die auch als Wiederholungsrate oder Reinheit oder Übereinstimmungswahrscheinlichkeit oder Homozygotie bekannt ist. Es wird oft als sein Komplement oder sein Reziprok bezeichnet, manchmal dann unter anderen Namen, wie Verunreinigung oder Heterozygotie. In diesem Zusammenhang ist es die Wahrscheinlichkeit, dass zwei zufällig ausgewählte Wörter gleich sind, und sein Komplement die Wahrscheinlichkeit, dass zwei Wörter unterschiedlich sind. Die reziproke wird als äquivalente Anzahl gleich gemeinsamer Kategorien interpretiert; Dies wird manchmal als Zahlenäquivalent bezeichnet. Eine solche Interpretation kann gesehen werden, indem man feststellt, dass gleich gemeinsame Kategorien sind (jede Wahrscheinlichkeit also1pi21/pi2k1/k ) impliziere so dass der Kehrwert der Wahrscheinlichkeit nur . Wenn Sie einen Namen auswählen, wird dies höchstwahrscheinlich das Feld verraten, in dem Sie arbeiten. Jedes Feld ehrt seine eigenen Vorfahren, aber ich empfehle die Übereinstimmungswahrscheinlichkeit als einfach und nahezu selbstdefinierend.pi2=k(1/k)2=1/kk

  3. H exp ( H ) k H = k ( 1 / k ) ln [ 1 / ( 1 / k ) ] = ln k exp ( H ) = exp ( ln k ) ka=1,b=1 gibt die Shannon-Entropie zurück, die oft als und bereits in früheren Antworten direkt oder indirekt signalisiert wurde. Der Name Entropie ist hier geblieben, aus einer Mischung von hervorragenden und nicht so guten Gründen, sogar gelegentlich aus Neid der Physik. Beachten Sie, dass die für dieses Maß äquivalenten Zahlen sind, wenn Sie in ähnlicher Weise feststellen, dass gleich häufig vorkommende Kategorien und damit gibt Ihnen zurück . Entropie hat viele großartige Eigenschaften; "Informationstheorie" ist ein guter Suchbegriff.Hexp(H)kH=k(1/k)ln[1/(1/k)]=lnkexp(H)=exp(lnk)k

Die Formulierung ist in IJ Good zu finden. 1953. Die Populationshäufigkeit von Arten und die Schätzung von Populationsparametern. Biometrika 40: 237 & ndash; 264. www.jstor.org/stable/2333344 .

Andere Grundlagen für den Logarithmus (z. B. 10 oder 2) sind je nach Geschmack, Präzedenzfall oder Zweckmäßigkeit gleichermaßen möglich, wobei für einige der obigen Formeln nur einfache Variationen impliziert sind.

Unabhängige Wiederentdeckungen (oder Neuerfindungen) der zweiten Maßnahme sind in mehreren Disziplinen vielfältig und die obigen Namen sind weit von einer vollständigen Liste entfernt.

Gemeinsame Maßnahmen in einer Familie zusammenzubinden, ist nicht nur mathematisch ansprechend. Es unterstreicht, dass es eine Auswahl an Maßnahmen gibt, die von den relativen Gewichten abhängen, die auf seltene und übliche Gegenstände angewendet werden, und verringert so den Eindruck von Schock, der durch eine kleine Fülle scheinbar willkürlicher Vorschläge entsteht. Die Literatur in einigen Bereichen wird durch Papiere und sogar Bücher geschwächt, die auf schwachen Behauptungen beruhen, dass eine von den Autoren bevorzugte Maßnahme die beste Maßnahme ist, die jeder anwenden sollte.

Meine Berechnungen zeigen, dass die Beispiele A und B nur bei der ersten Maßnahme so unterschiedlich sind:

----------------------------------------------------------------------
          |  Shannon H      exp(H)     Simpson   1/Simpson      #items
----------+-----------------------------------------------------------
        A |      0.656       1.927       0.643       1.556          14
        B |      0.684       1.981       0.630       1.588           9 
----------------------------------------------------------------------

(Einige mögen interessiert sein zu bemerken, dass der hier genannte Simpson (Edward Hugh Simpson, 1922-) der gleiche ist wie der, der durch das Paradoxon des Namens Simpson geehrt wird. Er hat hervorragende Arbeit geleistet, aber er war nicht der erste, der eines der beiden Dinge entdeckt hat er heißt, was wiederum Stiglers Paradoxon ist, was wiederum ....)

Nick Cox
quelle
Dies ist eine brillante Antwort (und weitaus einfacher zu befolgen als das gute Papier von 1953;)). Vielen Dank!
dB '
7

Ich weiß nicht, ob es einen gemeinsamen Weg gibt, aber das scheint mir analog zu Ungleichheitsfragen in der Wirtschaft zu sein. Wenn Sie jedes Wort als Individuum behandeln und dessen Anzahl mit dem Einkommen vergleichbar ist, möchten Sie vergleichen, wo sich der Wortbeutel zwischen den Extremen jedes Wortes mit derselben Anzahl (vollständige Gleichheit) oder einem Wort mit allen Zählungen befindet und alle anderen null. Die Komplikation ist, dass die "Nullen" nicht angezeigt werden. Sie können nicht weniger als 1 in einer Worttasche haben, wie normalerweise definiert ...

Der Gini-Koeffizient von A beträgt 0,18 und von B 0,43, was zeigt, dass A "gleich" ist als B.

library(ineq)

A <- c(3, 2, 2, rep(1, 11))
B <- c(9, 2, rep(1, 7))
Gini(A)
Gini(B)

Ich bin auch an anderen Antworten interessiert. Natürlich wäre die altmodische Varianz der Zählungen auch ein Ausgangspunkt, aber Sie müssten sie irgendwie skalieren, um sie für Taschen unterschiedlicher Größe und damit unterschiedlicher mittlerer Zählungen pro Wort vergleichbar zu machen.

Peter Ellis
quelle
Guter Anruf - der Gini-Koeffizient war auch mein erster Gedanke! Bei der Suche in Google Scholar konnte ich jedoch keinen Präzedenzfall für die Verwendung mit Textdaten finden. Ich frage mich, ob die NLP / Text Retrieval Community ein Standardmaß für diese Art von Dingen hat ...
dB
Achtung: Nach meiner Zählung hat Gini mindestens drei verschiedene Maßnahmen benannt. Die Geschichte ist in jedem Fall vertretbar, aber die Leute müssen die verwendete Formel sehen.
Nick Cox
1
Guter Punkt @NickCox - Ich habe an diesen gedacht, der für Ungleichheit verwendet wird, was meiner Meinung nach die häufigste Verwendung ist: ellisp.github.io/blog/2017/08/05/weighted-gini Ich habe verschiedene Methoden von gesehen Schätzung / Berechnung, aber alle mit der gleichen Grunddefinition, in diesem Zusammenhang. Ich weiß, dass Leute mit maschinellem Lernen es für etwas anderes verwenden, aber ihre Entschuldigung nicht gesehen haben ...
Peter Ellis
1
@ Db‘fand ich dieses Papier mit Gini in einer Textanwendung: proceedings.mlr.press/v10/sanasam10a/sanasam10a.pdf (ich ziehe diese Antwort auf den akzeptiert man einfach , wie es tut der beste Job , Ihre A zu unterscheiden , und B!)
Darren Cook
5

Dieser Artikel enthält eine Übersicht über die von Linguisten verwendeten Standarddispersionsmaßnahmen. Sie werden als Einzelwort-Streuungsmaße aufgeführt (sie messen die Streuung von Wörtern über Abschnitte, Seiten usw.), können jedoch möglicherweise als Wortfrequenz-Streuungsmaße verwendet werden. Die statistischen Standardwerte scheinen zu sein:

  1. Max Min
  2. Standardabweichung
  3. VariationskoeffizientCV
  4. Chi-Quadratχ2

Die Klassiker sind:

  1. JullardsD=1CVn1
  2. RosengrensS=N(i=1nni)2n
  3. CarrollsD2=(log2Ni=1nnilog2niN)/log2(n)
  4. LynesD3=1χ24N

Dabei ist die Gesamtzahl der Wörter im Text, die Anzahl der verschiedenen Wörter und die Anzahl der Vorkommen des i-ten Wortes im Text.Nnni

Der Text erwähnt auch zwei weitere Dispersionsmaße, die jedoch auf der räumlichen Positionierung der Wörter beruhen, sodass dies nicht auf das Taschenbeutelmodell anwendbar ist.

  • Hinweis : Ich habe die ursprüngliche Notation aus dem Artikel geändert, um die Formeln mit der Standardnotation konsistenter zu machen.
Chris Novak
quelle
Könnten Sie bitte und definieren ? Ich vermute, dass es sich um Symbole handelt oder definierbar ist, die Sie bereits definiert haben. fxi
Nick Cox
Interessant und sehr umfangreich, aber dies sind Maßstäbe für die Streuung einzelner Wörter . Sie beziehen sich auf die Variation der Häufigkeiten eines einzelnen Wortes in verschiedenen Textteilen (anstelle der Häufigkeiten verschiedener Wörter in einem einzelnen Textstück). Dieser Unterschied sollte geklärt werden. vi
Sextus Empiricus
1
Warum werden die Gleichungen aus der Quelle nicht genau kopiert (es handelt sich nicht nur um eine Änderung der Beschriftungen in den Ausdrücken, sondern auch um eine Änderung des Ausdrucks oder zumindest nicht um eine konsistente Änderung der Beschriftungen / Variablen)?
Sextus Empiricus
@NickCox Vielen Dank, dass Sie das verstanden haben. Ich habe die Formeln so korrigiert, dass sie nur definierte Mengen enthalten.
Chris Novak
@MartijnWeterings Sie haben Recht, dass sich der Artikel ursprünglich mit Einzelwortdispersionsmetriken befasste, obwohl sie sich trivial auf die Worthäufigkeit zu verallgemeinern scheinen. Nur für den Fall, dass ich diese Informationen in die Antwort aufgenommen habe. Ich habe die ursprüngliche Notation geändert, um diese auf die Tasche des Wortmodells anwendbar zu machen (Ersetzen von f durch N und v_i durch n_i). Ich habe eine Notiz hinzugefügt, um dies zu kennzeichnen, aber wenn Sie denken, dass sie immer noch irreführend ist, kann ich die Antwort länger begründen.
Chris Novak
4

Das erste, was ich tun würde, ist die Berechnung von Shannons Entropie. Sie können das R-Paket infotheo, Funktion, verwenden entropy(X, method="emp"). Wenn Sie es umschließen natstobits(H), erhalten Sie die Entropie dieser Quelle in Bits.

Alexey Burnakov
quelle
3

Ein mögliches Maß für die Gleichheit, das Sie verwenden könnten, ist die skalierte Shannon-Entropie . Wenn Sie einen Vektor von Proportionen ist dieses Maß gegeben durch:p(p1,...,pn)

H¯(p)pilnpilnn.

Dies ist ein skaliertes Maß mit dem Bereich mit Extremwerten, die an den Extremen der Gleichheit oder Ungleichheit auftreten. Die Shannon-Entropie ist ein Maß für die Information, und die skalierte Version ermöglicht den Vergleich zwischen Fällen mit unterschiedlicher Anzahl von Kategorien.0H¯(p)1

  • Extreme Ungleichheit: Alle zählen in einer Kategorie . In diesem Fall haben wir und dies gibt uns .p i = I ( i = k ) H ( p ) = 0kpi=I(i=k)H¯(p)=0

  • Extreme Gleichheit: Alle Zählungen sind in allen Kategorien gleich. In diesem Fall haben wir und dies ergibt .H ( p ) = 1pi=1/nH¯(p)=1

Ben - Monica wieder einsetzen
quelle