Ich verwende hierarchisches Clustering, um Zeitreihendaten zu analysieren. Mein Code wird mit der Mathematica- Funktion implementiert DirectAgglomerate[...]
, die unter Berücksichtigung der folgenden Eingaben hierarchische Cluster generiert:
eine Distanzmatrix D
Der Name der Methode, die zur Bestimmung der Cluster-Verknüpfung verwendet wird.
Ich habe die Distanzmatrix D mit Manhattan-Distanz berechnet:
Dabei ist und n ≈ 150 die Anzahl der Datenpunkte in meiner Zeitreihe.
Meine Frage ist, ist es in Ordnung, die Inter-Cluster-Verknüpfung von Ward mit einer Manhattan-Distanzmatrix zu verwenden? Einige Quellen schlagen vor, dass die Verknüpfung von Ward nur mit euklidischer Distanz verwendet werden sollte.
Beachten Sie, dass DirectAgglomerate[...]
die Verknüpfung von Ward nur anhand der Entfernungsmatrix berechnet wird, nicht anhand der ursprünglichen Beobachtungen. Leider bin ich mir nicht sicher, wie Mathematica den ursprünglichen Algorithmus von Ward modifiziert, der (nach meinem Verständnis) durch Minimierung der Fehlersumme der Quadrate der Beobachtungen, berechnet in Bezug auf den Clustermittelwert, funktioniert. Für einen Cluster , der aus einem Vektor univariater Beobachtungen besteht, formulierte Ward beispielsweise die Fehlersumme der Quadrate wie folgt:
(Andere Software - Tools wie Matlab und R auch Wards Clustering implementieren nur eine Entfernung Matrix , so dass die Frage nicht spezifisch für Mathematica ist.)
quelle
agnes
im Cluster- Paket.Antworten:
Der Ward-Clustering-Algorithmus ist eine hierarchische Clustering-Methode, die bei jedem Schritt ein Trägheitskriterium minimiert. Diese Trägheit quantifiziert die Summe der quadrierten Residuen zwischen dem reduzierten Signal und dem Anfangssignal: Sie ist ein Maß für die Varianz des Fehlers in einem 12 (euklidischen) Sinn. Eigentlich erwähnen Sie es sogar in Ihrer Frage. Aus diesem Grund ist es meines Erachtens sinnlos, sie auf eine Distanzmatrix anzuwenden, die keine 12-euklidische Distanz ist.
Andererseits wäre eine durchschnittliche Verknüpfung oder eine hierarchische Clusterbildung mit einer einzelnen Verknüpfung für andere Entfernungen perfekt geeignet.
quelle
Ich kann mir keinen Grund vorstellen, warum Ward eine Metrik bevorzugen sollte. Die Methode von Ward ist nur eine weitere Option, um zu entscheiden, welche Cluster während der Agglomeration als nächstes fusioniert werden sollen. Dies wird erreicht, indem zwei Cluster gefunden werden, deren Fusion einen bestimmten Fehler minimiert (Beispielquelle für die Formel ).
Daher stützt es sich auf zwei Konzepte:
Also: Solange die Eigenschaften der ausgewählten Metrik (wie z. B. Drehung, Verschiebung oder Skalierungsinvarianz) Ihren Anforderungen entsprechen (und die Metrik der Art und Weise entspricht, wie der Clustermittelwert berechnet wird), sehe ich keinen Grund, sie nicht zu verwenden .
Ich vermute, dass die meisten Leute die euklidische Metrik vorschlagen, weil sie
quelle
quelle