Wie unterscheidet sich das Ermitteln des Schwerpunkts vom Ermitteln des Mittelwerts?
26
Bei der Durchführung von hierarchischen Clustern können viele Metriken verwendet werden, um den Abstand zwischen Clustern zu messen. Zwei solche Metriken implizieren die Berechnung der Schwerpunkte und der Mittelwerte der Datenpunkte in den Clustern.
Was ist der Unterschied zwischen dem Mittelwert und dem Schwerpunkt? Sind das nicht die gleichen Punkte im Cluster?
Soweit ich weiß, sind der "Mittelwert" eines Clusters und der Schwerpunkt eines einzelnen Clusters dasselbe, obwohl der Begriff "Schwerpunkt" im Umgang mit multivariaten Daten möglicherweise etwas präziser ist als "Mittelwert".
Um den Schwerpunkt zu finden, berechnet man das (arithmetische) Mittel der Punktpositionen für jede Dimension separat. Wenn Sie zum Beispiel Punkte hatten bei:
(-1, 10, 3),
(0, 5, 2) und
(1, 20, 10)
dann würde sich der Schwerpunkt bei ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3) befinden, was (0, 11 2/3) vereinfacht. 5). (NB: Der Schwerpunkt muss nicht - und ist selten - einer der ursprünglichen Datenpunkte.)
Der Schwerpunkt wird manchmal auch als Schwerpunkt oder Schwerpunkt bezeichnet, basierend auf seiner physikalischen Interpretation (es ist der Schwerpunkt eines Objekts, der durch die Punkte definiert wird). Wie der Mittelwert minimiert die Position des Schwerpunkts den Abstand zum Quadrat der Summe zu den anderen Punkten.
Eine verwandte Idee ist das Medoid , bei dem es sich um den Datenpunkt handelt , der sich von allen anderen Datenpunkten "am wenigsten unterscheidet". Im Gegensatz zum Schwerpunkt muss das Medoid einer der ursprünglichen Punkte sein. Möglicherweise interessiert Sie auch der geometrische Median, der dem Median entspricht, jedoch für multivariate Daten. Beide unterscheiden sich vom Schwerpunkt.
Unter welchen Bedingungen sind Schwerpunkt und Medoid identisch? Und warum ist der Schwerpunkt ein guter Repräsentant für eine Reihe von Punkten?
raikumardipak
@dkr, Möglicherweise möchten Sie dies als neue Frage stellen, um mehr (und ausführlichere) Antworten zu erhalten. Der Unterschied läuft jedoch auf zwei Dinge hinaus: 1) die zu minimierende Sache (quadratische Distanz / L2-Norm für den Schwerpunkt, absolute Distanz / L1-Norm für den Mittelwert) und 2) ob die Ausgabe ein beliebiger Punkt (Schwerpunkt) sein kann oder muss im Datensatz sein (mediod). Sie können sich Fälle vorstellen, in denen sie gleich sind, aber im Allgemeinen nicht. Der Schwerpunkt ist aus den gleichen Gründen "gut" wie der Mittelwert (kleinster Quadratabstand zu den Punkten) und weist auch ähnliche Nachteile auf (z. B. nicht robust gegenüber Ausreißern).
Matt Krause
4
Die obige Antwort ist möglicherweise falsch, siehe dieses Video: https://www.youtube.com/watch?v=VMyXc3SiEqs Es scheint, dass der Durchschnitt alle Entfernungskombinationen zwischen den Elementen von Cluster 1 und Cluster 2 addiert - das ist n ^ 2 Abstände addieren sich und teilen sich dann durch n ^ 2 zum Durchschnitt.
Die Centroid-Methode berechnet zunächst den Durchschnitt jedes Clusters in sich. Dann berechnet es einen Abstand zwischen diesen Durchschnittspunkten.
Hallo Gabe! Ich denke du redest über diesen Teil des Videos? Soweit ich weiß, sind der Schwerpunkt und der Mittelwert eines einzelnen Clusters dasselbe, aber, wie Sie betont haben, sind der Schwerpunktabstand und der durchschnittliche Abstand zwischen zwei Clustern unterschiedliche Maße. Ich dachte, das OP fragt nach dem ersteren, aber ich habe nur ein bisschen über das letztere nachgearbeitet. Vielen Dank für den Hinweis (+1) und willkommen bei Cross Validated!
Matt Krause
-1
Schwerpunkt ist der Durchschnitt der Datenpunkte in einem Cluster. Schwerpunkt muss nicht im Datensatz vorhanden sein. Medoid ist der Datenpunkt, der näher am Schwerpunkt liegt. Medoid muss in den Originaldaten vorhanden sein
Die obige Antwort ist möglicherweise falsch, siehe dieses Video: https://www.youtube.com/watch?v=VMyXc3SiEqs Es scheint, dass der Durchschnitt alle Entfernungskombinationen zwischen den Elementen von Cluster 1 und Cluster 2 addiert - das ist n ^ 2 Abstände addieren sich und teilen sich dann durch n ^ 2 zum Durchschnitt.
Die Centroid-Methode berechnet zunächst den Durchschnitt jedes Clusters in sich. Dann berechnet es einen Abstand zwischen diesen Durchschnittspunkten.
quelle
Schwerpunkt ist der Durchschnitt der Datenpunkte in einem Cluster. Schwerpunkt muss nicht im Datensatz vorhanden sein. Medoid ist der Datenpunkt, der näher am Schwerpunkt liegt. Medoid muss in den Originaldaten vorhanden sein
quelle