Ich versuche, die Clusterleistung zu bewerten. Ich habe die Skiscit-Learn-Dokumentation zu Metriken gelesen . Ich verstehe den Unterschied zwischen ARI und AMI nicht. Es scheint mir, dass sie dasselbe auf zwei verschiedene Arten tun.
Zitieren aus der Dokumentation:
Angesichts der Kenntnis der Zuordnungen der Grundwahrheitsklassen Labels_true und unserer Clustering-Algorithmus-Zuweisungen derselben Stichproben Labels_pred ist der angepasste Rand-Index eine Funktion, die die Ähnlichkeit der beiden Zuweisungen misst , Permutationen ignoriert und zufällig normalisiert.
vs.
Angesichts der Kenntnis der Zuordnungen der Grundwahrheitsklassen Labels_true und unserer Zuordnungen von Clustering-Algorithmen für dieselben Stichproben label_pred ist die gegenseitige Information eine Funktion, die die Übereinstimmung der beiden Zuweisungen misst und Permutationen ignoriert ... AMI wurde kürzlich vorgeschlagen und gegen normalisiert Chance.
Sollte ich beide in meiner Clustering-Bewertung verwenden oder wäre dies redundant?
quelle
Antworten:
Es sind zwei von einem Dutzend, die alle versuchen, Cluster zu vergleichen.
Aber sie sind nicht gleichwertig. Sie verwenden unterschiedliche Theorien.
Manchmal bevorzugt ARI ein Ergebnis und das AMI ein anderes. Aber oft stimmen sie bevorzugt überein (nicht in den Zahlen).
quelle
Als Faustregel gilt:
Ich habe an diesem Thema gearbeitet. Referenz: Anpassen von Vergleichsmaßnahmen für zufällige Cluster
quelle