Was sind die besten (empfohlenen) Vorverarbeitungsschritte vor der Durchführung von k-means?
clustering
normalization
k-means
pedrosaurio
quelle
quelle
Antworten:
Wenn Ihre Variablen unvergleichliche Einheiten haben (z. B. Größe in cm und Gewicht in kg), sollten Sie natürlich die Variablen standardisieren. Auch wenn Variablen die gleichen Einheiten haben, aber sehr unterschiedliche Varianzen aufweisen, ist es immer noch eine gute Idee, vor K-means zu standardisieren. Wie Sie sehen, ist die K-Mittelwert-Clusterbildung in allen Raumrichtungen "isotrop" und führt daher eher zu mehr oder weniger runden (als zu länglichen) Clustern. In dieser Situation bedeutet die Ungleichheit von Varianzen, dass Variablen mit geringerer Varianz stärker gewichtet werden, sodass Cluster tendenziell entlang von Variablen mit größerer Varianz getrennt werden.
Eine andere Sache, an die wir erinnern sollten, ist, dass die Ergebnisse von K-Means-Clustern möglicherweise von der Reihenfolge der Objekte im Datensatz . Eine berechtigte Praxis wäre es, die Analyse mehrmals durchzuführen und die Reihenfolge der Objekte zufällig zu bestimmen. Dann werden die Clusterzentren dieser Läufe gemittelt und die Zentren als Anfangszentren für einen letzten Lauf der Analyse eingegeben.1
Hier einige allgemeine Überlegungen zum Thema der Standardisierung von Features in Cluster- oder anderen multivariaten Analysen.
quelle
Kommt auf deine Daten an, denke ich. Wenn Sie möchten, dass sich Trends in Ihren Daten unabhängig von der Größe zusammenballen, sollten Sie sie zentrieren. z.B. Angenommen, Sie haben ein gewisses Genexpressionsprofil und möchten Trends in der Genexpression sehen. Ohne eine mittlere Zentrierung werden sich Ihre Gene mit niedriger Expression unabhängig von Trends zusammenlagern und von Genen mit hoher Expression entfernen. Durch die Zentrierung werden Gene (sowohl hoch als auch niedrig exprimiert) mit ähnlichen Expressionsmustern zusammengeballt.
quelle