Ähnlichkeitskoeffizienten für Binärdaten: Warum Jaccard anstelle von Russell und Rao?

20

Aus der Encyclopedia of Statistical Sciences geht hervor , dass wir bei dichotomen (binär: 1 = vorhanden; 0 = nicht vorhanden) Attributen (Variablen) eine Kontingenztabelle für zwei beliebige Objekte i und j einer Stichprobe bilden können:p

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

Aus diesen Werten können Ähnlichkeitskoeffizienten zwischen jedem Objektpaar berechnet werden, insbesondere der Jaccard-Koeffizient und der Russell- und Rao-Koeffizient

einein+b+c
einein+b+c+d=einp.

Wenn diese Koeffizienten berechnet werden, ergeben sie unterschiedliche Werte, aber ich kann keine Ressourcen finden, die erklären, warum ich eine über die andere wählen sollte. Liegt es nur daran, dass bei einigen Datensätzen das gleichzeitige Fehlen beider Attribute ( ) keine Informationen liefert?d

wflynny
quelle

Antworten:

14

Es gibt viele solcher Koeffizienten (die meisten werden hier ausgedrückt ). Versuchen Sie einfach , zu meditieren , was die Folgen der Unterschiede in den Formeln sind, vor allem , wenn Sie eine Berechnung Matrix von Koeffizienten.

Stellen Sie sich zum Beispiel vor, dass die Objekte 1 und 2 ähnlich sind wie die Objekte 3 und 4. Aber 1 und 2 haben viele der Attribute auf der Liste, während 3 und 4 nur wenige Attribute haben. In diesem Fall ist Russell-Rao (Anteil der Co-Attribute an der Gesamtzahl der betrachteten Attribute) für Paar 1-2 hoch und für Paar 3-4 niedrig. Aber Jaccard (Anteil von Co-Attributen an der kombinierten Anzahl von Attributen, die beide Objekte haben = Wahrscheinlichkeit, dass eines der Objekte ein Attribut hat, das beide haben) wird für beide Paare 1-2 und 3-4 hoch sein.

Diese Anpassung für die Basisebene der "Sättigung nach Attributen" macht Jaccard so beliebt und nützlicher als Russell-Rao , z. B. bei der Clusteranalyse oder der mehrdimensionalen Skalierung. Sie können die obige Anpassung in gewissem Sinne weiter verfeinern, indem Sie das Maß Kulczynski-2 auswählen , bei dem es sich um das arithmetische Mittel der Wahrscheinlichkeit handelt, dass ein Objekt ein Attribut hat, das auch das andere Objekt hat:

(einein+b+einein+c)/2
Hier wird die Basis (oder das Feld) der Attribute für die beiden Objekte nicht wie in Jaccard zusammengefasst, sondern ist für jedes der beiden Objekte eine eigene. Wenn sich die Objekte in Bezug auf die Anzahl der Attribute stark unterscheiden und alle Attribute des "ärmeren" Objekts mit dem "reicheren" Objekt übereinstimmen, ist Kulczynski folglich hoch, während Jaccard moderat ist.

Oder Sie möchten lieber die geometrische mittlere Wahrscheinlichkeit berechnen , dass ein Objekt ein Attribut hat, das auch das andere Objekt hat. Dies ergibt das Ochiai- Maß: Da das Produkt schwächer zunimmt als die Summe, wenn nur einer der Begriffe wächst, ist Ochiai nur dann wirklich hoch, wenn beide Proportionen (Wahrscheinlichkeiten) hoch sind, was impliziert, dass die Objekte das Große teilen müssen, um von Ochiai als ähnlich angesehen zu werden Aktien ihrer Attribute. Kurz gesagt, Ochiai begrenzt die Ähnlichkeit, wenn und ungleich sind. Ochiai ist in der Tat das Cosinus-Ähnlichkeitsmaß (und Russell-Rao ist die Ähnlichkeit des Skalarprodukts).

einein+beinein+c
bc

PS

Liegt es nur daran, dass bei einigen Datensätzen das gleichzeitige Fehlen beider Attribute (d) keine Informationen liefert?

Apropos Ähnlichkeitsmaße: Man sollte nominelle dichotome Attribute (z. B. weiblich, männlich) nicht mit binären Attributen (vorhanden oder nicht vorhanden) mischen . Binärattribut ist (im Allgemeinen) nicht symmetrisch. Wenn Sie und ich ein Merkmal gemeinsam haben, ist dies die Basis für die Bezeichnung "ähnlich". Wenn Sie und ich beide das Merkmal vermissen, kann es je nach Kontext der Studie als Beweis für Ähnlichkeit angesehen werden oder auch nicht. Daher ist die abweichende Behandlung von möglich.d

Beachten Sie auch, dass Sie, wenn Sie Ähnlichkeiten zwischen Objekten auf der Grundlage von 1+ nominalen Attributen (dichotom oder polytom) berechnen möchten, jede dieser Variablen in die Menge der Dummy-Binärvariablen umcodieren. Dann ist das empfohlene Ähnlichkeitsmaß für die Berechnung Würfel ( das bei der Berechnung für 1+ Sätze von Dummy-Variablen Ochiai und Kulczynski-2 entspricht).

ttnphns
quelle
2
Verschiedene Begriffe wurden in Analogie zu "dichotom" für Klassifikationen mit mehr als zwei Kategorien vorgeschlagen. "Polytom" ist sprachlich "polychotom" vorzuziehen, was auf einer falschen Vermutung beruht, dass "dichotom" in zwei griechische Wurzeln zerlegt wird, "di" und "chotom". "Multichotome" Verbindungen, die sich bei Verwendung einer lateinischen Wurzel irren. Obwohl Wörter mit getrennten lateinischen und griechischen Wurzeln die Verachtung von Linguisten (zB "Fernsehen") überlebt haben, rate ich hier zur Verwendung von "polytom".
Nick Cox
Vielen Dank, dass Sie daran erinnert haben. Ich wusste genau, wovon du sprichst, und versuche, selbst puristisch zu sein ... wenn ich es nicht eilig habe. Ich werde es bearbeiten.
TTNPHNS
3

Die Nützlichkeit des Tanimoto-Koeffizienten gegenüber der herkömmlichen Genauigkeit (dh Russell-Rao) wird in der Bildanalyse deutlich, wenn eine Segmentierung mit einem Goldstandard verglichen wird. Betrachten Sie diese beiden Bilder:

Bildbeschreibung hier eingeben

In jedem dieser Bilder, die binäre 'Masken' sind, haben wir zwei Objekte der gleichen Größe, aber an leicht unterschiedlichen Orten platziert, und wir möchten bewerten, inwieweit diese Objekte in Form und Position identisch sind, indem wir ihre Überlappung bewerten. In der Regel handelt es sich bei einer (z. B. der lila Maske) um eine (von einem Computeralgorithmus erstellte) Segmentierung. Dies könnte beispielsweise ein Versuch sein, das Herz anhand eines medizinischen Bildes zu lokalisieren. Das andere (z. B. grün) ist der Goldstandard (dh das Herz, wie von einem erfahrenen Kliniker identifiziert). Bei weißer Farbe überlappen sich die beiden Formen. Schwarze Pixel sind Hintergrund.

Die beiden Bilder sind identisch (dh das Ergebnis des Segmentierungsalgorithmus sowie der Goldstandard sind in beiden Bildern identisch), außer dass das zweite Bild viel Hintergrund "auffüllt" (z. B. könnte dies zwei Experimente mit darstellen) zwei verschiedene Röntgengeräte, wobei das 2. Gerät einen breiteren Strahl hatte, der mehr Körperfläche abdeckte, ansonsten aber die Größe des Herzens in beiden Bildsätzen gleich war).

Da die Segmentierung und der Goldstandard in beiden Bildern identisch sind, möchten wir natürlich, dass unsere Metrik bei beiden Experimenten dasselbe "Genauigkeits" -Ergebnis liefert, wenn wir die Segmentierungsgenauigkeit mit dem Goldstandard vergleichen.

Wenn wir jedoch versuchen, die Qualität der Segmentierung mit dem Russel-Rao-Ansatz zu bewerten, erhalten wir eine irreführend hohe Genauigkeit für das richtige Bild (nahe 100%), da "Hintergrundpixel, die korrekt als Hintergrundpixel identifiziert wurden" zum Ergebnis beitragen Die Gesamtgenauigkeit der Sätze und die Hintergrundpixel werden im zweiten Satz überproportional dargestellt. Die Objekte, deren Überlappung wir in der medizinischen Segmentierung auswerten möchten, sind oft winzige Flecken in einem massiven Hintergrund, daher ist dies für uns nicht sehr nützlich. Darüber hinaus würde dies zu Problemen führen, wenn wir versuchen würden, die Genauigkeit eines Segmentierungsalgorithmus mit einem anderen zu vergleichen, und die beiden auf Bildern unterschiedlicher Größe ausgewertet würden! (oder gleichwertig in verschiedenen Maßstäben).Die Skalierung / Größe des eingebetteten Bildes sollte bei der Bewertung einer Segmentierung gegenüber einem Goldstandard keinen Unterschied machen! .

Im Gegensatz dazu kümmert sich der Tanimoto-Koeffizient nicht um die Hintergrundpixel, sodass er nicht skalierbar ist. Was den Tanimoto-Koeffizienten betrifft, ist die Ähnlichkeit dieser beiden Mengen identisch, was es für uns zu einer weitaus nützlicheren Ähnlichkeitsmetrik macht, um die Qualität eines Segmentierungsalgorithmus zu bewerten.

Tasos Papastylianou
quelle