Welche Intuition steckt hinter der Variation der Informationsmetrik (VI) für die Clustervalidierung?

Für Nicht-Statistiker wie mich ist es sehr schwierig, die Idee der VIMetrik (Variation von Informationen) zu erfassen, selbst nachdem sie das relevante Papier von Marina Melia " Vergleich von Clustern - Eine informationsbasierte Distanz " (Journal of Multivariate Analysis, 2007) gelesen hat . Tatsächlich kenne ich viele Begriffe der Cluster nicht.

Unten ist ein MWE und ich würde gerne wissen, was die Ausgabe in den verschiedenen verwendeten Metriken bedeutet. Ich habe diese beiden Cluster in R und in der gleichen Reihenfolge von id:

> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")

Jetzt werden Vergleiche basierend auf den VIund anderen Metriken / Indizes und in chronologischer Reihenfolge ihres Auftretens in der Literatur durchgeführt.

library(igraph)
  # Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi")) 
[1] 0.8673525
  # Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi")) 
[1] 0.2451685
  # Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence") 
[1] 0.8800522
  # van Dongen S metric 2000:
compare(a, b, method = c("split.join")) 
[1] 8
  # Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand")) 
[1] 0.8750403
  # Rand Index 1971:
compare(a, b, method = c("rand")) 
[1] 0.9374788

Wie Sie sehen können, war der VIWert anders als bei allen anderen.

Was sagt dieser Wert aus (und in welcher Beziehung steht er zur folgenden Abbildung)?
Was sind die Richtlinien, um diesen Wert als niedrig oder hoch zu betrachten?
Sind Richtlinien definiert?

Vielleicht können Experten auf diesem Gebiet Laien wie mir sinnvolle Beschreibungen geben, wenn sie versuchen, solche Ergebnisse zu melden. Ich würde mich sehr freuen, wenn jemand auch Richtlinien für andere Metriken bereitstellen würde (wenn zu berücksichtigen ist, dass der Wert groß oder klein ist, dh in Bezug auf eine Ähnlichkeit zwischen zwei Clustern).

Ich habe hier und hier verwandte CV-Threads gelesen , konnte aber die Intuition dahinter immer noch nicht erfassen VI. Kann jemand dies in einfachem Englisch erklären?

Die folgende Abbildung ist Abbildung 2 aus dem oben genannten Artikel über VI.

Geben Sie hier die Bildbeschreibung ein

r clustering validation intuition Promotion
quelle

Alle diese Ähnlichkeiten und Metriken (beachten Sie den Unterschied zwischen den beiden Typen) messen auf die eine oder andere Weise das Ausmaß der Fragmentierung, das mit dem größten gemeinsamen Subclustering zwischen den beiden Partitionen verbunden ist. Sie alle verwenden die sogenannte Verwirrungsmatrix. Unter Berücksichtigung der genauen Formel für VI kann verstanden werden, dass diese Fragmentierung gemessen wird. Ich würde vorschlagen, die Formel in einer der Meila-Veröffentlichungen zu betrachten und sich auch über die normalisierten Versionen all dieser Entfernungen zu informieren, da sie alle unterschiedliche Maßstäbe haben. Dies kann der wichtigste Punkt sein.

Micans

Ich hatte auch Probleme mit der Interpretation des VI und fand diesen Artikel sehr nützlich!

Pizza

Welche Intuition steckt hinter der Variation der Informationsmetrik (VI) für die Clustervalidierung?

Antworten: