Interpretation des Dendrogramms einer hierarchischen Clusteranalyse

25

Betrachten Sie das folgende R-Beispiel:

plot( hclust(dist(USArrests), "ave") )
  1. Was genau bedeutet die y-Achse "Höhe"?

  2. Blick auf North Carolina und Kalifornien (eher links). Ist Kalifornien North Carolina "näher" als Arizona? Kann ich diese Interpretation machen?

  3. Hawaii (rechts) tritt dem Cluster ziemlich spät bei. Ich kann das als "höher" als andere Staaten sehen. Wie kann ich generell die Tatsache interpretieren, dass Labels im Dendrogramm "höher" oder "niedriger" sind?

Bildbeschreibung hier eingeben

Ric
quelle
1
Antworten in ?hclust.
Scortchi
3
Die Positionen der Beschriftungen haben keine Bedeutung. Wenn Sie die y-Achse nicht verstehen, ist es merkwürdig, dass Sie den Eindruck haben, die hierarchische Gruppierung gut zu verstehen.
Stéphane Laurent
1
Bitte beachten Sie , dass hierarchische Clustering der Regel nicht nicht Sie geben hierarchische (Baum-) Klassifikation . Durchschnittliche Methode (die Sie verwendet haben) nicht, insbesondere. Siehe letzter Punkt hier .
TTNPHNS
1
Die Position eines Etiketts hat jedoch eine kleine Bedeutung. Je höher die Position, desto später verbindet sich das Objekt mit anderen und ist daher eher ein Ausreißer oder ein Streuner.
TTNPHNS
3
@ StéphaneLaurent Du hast recht, dass dies wie ein Widerspruch klingt. Auf der anderen Seite denke ich immer noch, dass ich in der Lage bin, ein Dendogramm von Daten zu interpetieren, die ich gut kenne. Außerdem hat die Position der Etiketten eine kleine Bedeutung, wie ttnphns und Peter Flom betonen. Schließlich war Ihr Kommentar für mich nicht konstruktiv.
Ric

Antworten:

17

1) Die y-Achse ist ein Maß für die Nähe einzelner Datenpunkte oder Cluster.

2) Kalifornien und Arizona sind gleich weit von Florida entfernt, da CA und AZ sich in einem Cluster befinden, bevor sich beide FL anschließen.

3) Hawaii macht erst spät mit; Dies bedeutet, dass der Cluster, dem er beitritt, näher beieinander liegt, bevor HI beitritt. Aber nicht viel näher. Beachten Sie, dass der Cluster, dem es sich anschließt (der eine ganz rechts), erst bei ungefähr 45 entsteht. Die Tatsache, dass HI sich später einem Cluster anschließt als jeder andere Zustand, bedeutet einfach, dass HI (unter Verwendung der von Ihnen ausgewählten Metrik) nicht so nahe ist irgendein bestimmter Staat.

Peter Flom - Wiedereinsetzung von Monica
quelle
"Height" gibt mir also eine Vorstellung vom Wert des Verknüpfungskriteriums (wie hier ) - in meinem Fall der durchschnittliche Abstand von Clustern zueinander. Ist das richtig? Vielen Dank!
Ric
Ist das nicht der y-Achse ein Maß für dis Ähnlichkeit zwischen Clustern und Punkte? Das heißt, die Nähe ist negativ, weil sie am größten ist, wenn die Dinge am unähnlichsten sind, und nicht umgekehrt. @PeterFlom
Felipe Almeida
21

Ich hatte die gleichen Fragen, als ich versuchte, hierarchisches Clustering zu lernen, und fand das folgende PDF sehr sehr nützlich.

http://www.econ.upf.edu/~michael/stanford/maeb7.pdf

Auch wenn Richard sich über das Verfahren bereits im Klaren ist, können andere, die die Frage durchsuchen, wahrscheinlich das PDF verwenden, das sehr einfach und klar ist, insbesondere für diejenigen, die nicht über genügend mathematische Kenntnisse verfügen.

Srmsbrmnm
quelle
3
Ich möchte nur wiederholen, dass das verknüpfte PDF sehr gut ist.
Heisenberg,
Referenz: Klimberg, Ronald K. und BD McCullough. 2013. „Kapitel 7: Hierarchische Clusteranalyse.“ In Grundlagen der prädiktiven Analytik mit JMP. Cary, NC: SAS-Institut.
jay.sf
1

Die horizontale Achse repräsentiert die Cluster. Die vertikale Skala im Dendrogramm gibt den Abstand oder die Unähnlichkeit an. Jede Verbindung (Fusion) zweier Cluster wird im Diagramm durch Aufteilen einer vertikalen Linie in zwei vertikale Linien dargestellt. Die vertikale Position der Teilung, dargestellt durch einen kurzen Balken, gibt den Abstand (die Unähnlichkeit) zwischen den beiden Clustern an.

Babaasa
quelle