Nehmen wir an, wir definieren einen Abstand zwischen N Elementen , der keine Metrik ist.
Basierend auf dieser Entfernung verwenden wir dann ein agglomeratives hierarchisches Clustering .
Können wir jeden der bekannten Algorithmen (Einzel- / Maximal- / Durchschnittsverknüpfung usw.) verwenden, um aussagekräftige Ergebnisse zu erzielen? Oder anders ausgedrückt, was ist das Problem bei der Verwendung, wenn der Abstand keine Metrik ist?
Antworten:
Die Anforderungen an Entfernungen hängen von der Methode der hierarchischen Clusterbildung ab. Einzelne, vollständige, durchschnittliche Methoden benötigen Abstände, die nicht negativ und symmetrisch sind. Ward-, Centroid- und Median-Methoden benötigen (quadratische) euklidische Abstände (die noch enger definiert sind als metrische Abstände), um geometrisch aussagekräftige Ergebnisse zu erzielen.
(Man kann überprüfen, ob seine Distanzmatrix euklidisch ist, indem man sie doppelt zentriert [siehe meine Antwort hier ] und die Eigenwerte betrachtet. Wenn keine negativen Eigenwerte gefunden werden, konvergieren die Entfernungen im euklidischen Raum.)
quelle
Nein, die Entfernung muss keine Metrik sein. Es kann zum Beispiel eine Ultrametrie sein:
Ultrametrische Abstände, die aus aufeinanderfolgenden Schritten im Clustering-Algorithmus erhalten wurden, können mithilfe von Dendrogrammen dargestellt werden, die Sie möglicherweise in diesem Zusammenhang gesehen haben.
quelle