Gibt es eine Möglichkeit zu bestimmen, welche Merkmale / Variablen des Datensatzes innerhalb einer k-means Cluster-Lösung am wichtigsten / dominantesten sind?
machine-learning
clustering
k-means
importance
user1624577
quelle
quelle
Antworten:
Eine Möglichkeit zur Quantifizierung des Nutzens jedes Merkmals (= Variable = Dimension) aus dem Buch Burns, Robert P. und Richard Burns. Business Research Methoden und Statistiken mit SPSS. Sage, 2008. ( Spiegel ), wobei die Nützlichkeit durch die Unterscheidungskraft der Merkmale definiert wird, um Cluster voneinander zu unterscheiden.
Eine andere Möglichkeit wäre, ein bestimmtes Feature zu entfernen und zu sehen, wie sich dies auswirkt internen Qualitätsindizes auswirkt . Im Gegensatz zur ersten Lösung müssten Sie das Clustering für jedes Feature (oder jede Feature-Gruppe), das Sie analysieren möchten, wiederholen.
Zu Ihrer Information:
quelle
Ich kann mir zwei andere Möglichkeiten vorstellen, die sich mehr darauf konzentrieren, welche Variablen für welche Cluster wichtig sind.
Mehrklasseneinteilung. Betrachten Sie die Objekte, die zu Cluster x- Mitgliedern derselben Klasse gehören (z. B. Klasse 1), und die Objekte, die zu anderen Clustermitgliedern einer zweiten Klasse gehören (z. B. Klasse 2). Trainieren Sie einen Klassifikator, um die Klassenzugehörigkeit vorherzusagen (z. B. Klasse 1 gegen Klasse 2). Die variablen Koeffizienten des Klassifikators können dazu dienen, die Wichtigkeit jeder Variablen beim Clustering von Objekten zu Cluster x abzuschätzen . Wiederholen Sie diesen Ansatz für alle anderen Cluster.
Ähnlichkeit von Variablen innerhalb eines Clusters. Berechnen Sie für jede Variable die durchschnittliche Ähnlichkeit jedes Objekts mit seinem Schwerpunkt. Eine Variable mit hoher Ähnlichkeit zwischen einem Schwerpunkt und seinen Objekten ist für den Clusterprozess wahrscheinlich wichtiger als eine Variable mit geringer Ähnlichkeit. Natürlich ist die Größe der Ähnlichkeit relativ, aber jetzt können Variablen nach dem Grad eingestuft werden, in dem sie dazu beitragen, die Objekte in den einzelnen Clustern zu gruppieren.
quelle
Hier ist eine sehr einfache Methode. Beachten Sie, dass der euklidische Abstand zwischen zwei Clusterzentren eine Summe der quadratischen Unterschiede zwischen einzelnen Merkmalen ist. Wir können dann einfach die quadratische Differenz als Gewicht für jedes Merkmal verwenden.
quelle