Zur kophenetischen Korrelation für das Dendrogramm-Clustering

10

Betrachten Sie den Kontext eines Dendrogramm-Clusters. Nennen wir ursprüngliche Unterschiede die Abstände zwischen den Individuen. Nach der Erstellung des Dendrogramms definieren wir die kophenetische Unähnlichkeit zwischen zwei Individuen als den Abstand zwischen den Clustern, zu denen diese Individuen gehören.

Einige Leute denken, dass die Korrelation zwischen den ursprünglichen Unähnlichkeiten und den kophenetischen Unähnlichkeiten (als kophenetische Korrelation bezeichnet ) ein "Eignungsindex" der Klassifikation ist. Das klingt für mich total rätselhaft. Mein Einwand beruht nicht auf der besonderen Wahl der Pearson-Korrelation, sondern auf der allgemeinen Vorstellung, dass ein Zusammenhang zwischen den ursprünglichen Unähnlichkeiten und den kophenetischen Unähnlichkeiten mit der Eignung der Klassifikation zusammenhängen könnte.

Stimmen Sie mir zu oder könnten Sie ein Argument vorbringen, das die Verwendung der kophenetischen Korrelation als Eignungsindex für die Dendrogrammklassifikation unterstützt?

Stéphane Laurent
quelle
Sie erklären Ihren Einwand nicht gegenüber dem (recht intuitiv) general idea that any link between the original dissimilarities and the cophenetic dissimilarities could be related to the suitability of the classification. Die Klassifizierung sollte die ursprünglichen Unterschiede widerspiegeln. Das Grundmerkmal der dendrogramischen Klassifikation ist die kophenetische Unähnlichkeit. Gibt es etw. falsch?
ttnphns
1
Übrigens sollte man das Konzept der hierarchischen (agglometativen) Clusterbildung nicht mit der hierarchischen (dendrogramischen ) Klassifikation mischen . Das Clustering erstellt sein Dendrogramm als Prozessbericht . es wird nicht behauptet, es sei ein hierarchisches Klassifizierungsergebnis .
ttnphns
1
Die kophenetische Korrelation wurde nur für "dogmatische" Klassifikationen vorgeschlagen - wobei die Klassifikation paarweise Unterschiede widerspiegeln sollte , folgt der Begriff der Nützlichkeit der (kophenetischen) Korrelation unmittelbar.
ttnphns
2
Vielleicht möchten Sie dieses Papier über kophenetische Korrelation lesen
ttnphns
3
@ StéphaneLaurent Ich habe nichts als Antwort auf Ihre Frage beizutragen, aber ich habe den Dialog gelesen. Nichts, was du gesagt hast, klang für mich beleidigend. Sie sagten auch, Sie kannten den Unterschied zwischen Klassifizierung und Clustering nicht und ich habe diese einfache Frage nicht beantwortet. Es ist der Unterschied zwischen dem, was die Leute des maschinellen Lernens überwachtes und unbeaufsichtigtes Lernen nennen. Bei der Klassifizierung kennen Sie alle Klassenbezeichnungen für Ihre Daten und verwenden diese Informationen, um eine Klassifizierungsregel für zukünftige Fälle ohne Bezeichnungen zu erstellen. Im Cluster haben Sie keine Beschriftung.
Michael R. Chernick

Antworten:

2

... ist ein "Eignungsindex" der Klassifikation

Für mich ist nicht richtig klar, was damit gemeint ist. So wie ich es verstanden habe, ist das so

die Korrelation zwischen den ursprünglichen Unähnlichkeiten und den kophenetischen Unähnlichkeiten (als kophenetische Korrelation bezeichnet)

ist ein Maß für die hierarchische Struktur zwischen den Beobachtungen , dh ihre Abstände. Das heißt, die Unterschiede zu Beobachtungen in einem anderen Cluster sind vorzugsweise ähnlich. Wenn man die Datensätze A und B betrachtet, die unter Verwendung der euklidischen Entfernung und der vollständigen Verknüpfung Geben Sie hier die Bildbeschreibung ein geclustert wurden, kann man sehen, dass die kophenetische Korrelation von A höher ist als die von B. In einer Hierarchie gibt es Ebenen. Der CC gibt also an, ob die Entfernungen zu Beobachtungen auf derselben Ebene (Cluster) ähnlich sind.

Der Vollständigkeit halber: Die kophenetischen Korrelationen sind CC (A) = 0,936 und CC (B) = 0,691


quelle
1
Ich wünschte, ich wäre mehr Experte in diesem Bereich. Ich folge Ihrem Beispiel mit den Heatmaps nicht ganz. Was ist es, das Sie sehen, das den CC (A)> den CC (B) offensichtlich macht? Wenn beispielsweise die oberen Dreiecke kophenetische Abstände und die unteren Dreiecke ursprüngliche Abstände wären und beide ähnliche Muster zeigten, würde ich erkennen, dass der CC hoch wäre usw. Mit diesen bin ich mir nicht sicher, wie ich eine solche Schlussfolgerung ziehen soll . Ist es nur so, dass A natürlich zu einer besseren Clusterbildung führt und der resultierende CC nur gut zusammenpassen muss?
Gung - Reinstate Monica