Es ist bekannt, dass der k-means-Algorithmus bei Ausreißern leidet. k-means ++ ist eine effektive Methode zur Initalisierung von Clusterzentren. Ich habe die PPT von den Gründern der Methode, Sergei Vassilvitskii und David Arthur http://theory.stanford.edu/~sergei/slides/BATS-Means.pdf (Folie 28) , durchlaufen, was zeigt, dass die Cluster-Center-Initialisierung ist nicht vom Ausreißer betroffen, wie unten gezeigt.
Gemäß der k-means ++ - Methode sind die am weitesten entfernten Punkte eher die Anfangszentren. Auf diese Weise muss der Ausreißerpunkt (der Punkt ganz rechts) auch ein anfänglicher Clusterschwerpunkt sein. Was ist die Erklärung für die Figur?
quelle