Schätzen der wichtigsten Features in einer k-means-Clusterpartition

19

Gibt es eine Möglichkeit zu bestimmen, welche Merkmale / Variablen des Datensatzes innerhalb einer k-means Cluster-Lösung am wichtigsten / dominantesten sind?

machine-learning clustering k-means importance user1624577
quelle

1

Wie definieren Sie "wichtig / dominant"? Meinen Sie die nützlichste Methode zur Unterscheidung zwischen Clustern?

Franck Dernoncourt

3

Ja, das Nützlichste ist, was ich meinte. Ich denke, ein Teil meines Problems ist, wie ich es ausdrücken soll.

user1624577

Danke für die Klarstellung. Eine übliche Bezeichnung für dieses Problem beim maschinellen Lernen ist die Merkmalsauswahl .

Franck Dernoncourt

8

Eine Möglichkeit zur Quantifizierung des Nutzens jedes Merkmals (= Variable = Dimension) aus dem Buch Burns, Robert P. und Richard Burns. Business Research Methoden und Statistiken mit SPSS. Sage, 2008. ( Spiegel ), wobei die Nützlichkeit durch die Unterscheidungskraft der Merkmale definiert wird, um Cluster voneinander zu unterscheiden.

Normalerweise untersuchen wir die Mittelwerte für jeden Cluster in jeder Dimension mithilfe von ANOVA, um festzustellen, wie unterschiedlich unsere Cluster sind. Idealerweise würden wir für die meisten, wenn nicht alle Dimensionen, die in der Analyse verwendet werden, signifikant unterschiedliche Mittel erhalten. Die Größe der F-Werte, die für jede Dimension durchgeführt werden, ist ein Hinweis darauf, wie gut die jeweilige Dimension zwischen Clustern unterscheidet.

Eine andere Möglichkeit wäre, ein bestimmtes Feature zu entfernen und zu sehen, wie sich dies auswirkt internen Qualitätsindizes auswirkt . Im Gegensatz zur ersten Lösung müssten Sie das Clustering für jedes Feature (oder jede Feature-Gruppe), das Sie analysieren möchten, wiederholen.

Zu Ihrer Information:

Franck Dernoncourt
quelle

4

Es ist sehr wichtig in diesem Zusammenhang hinzufügen , dass man sollte nicht jene F (oder p) Werte als Indikatoren für die statistische Signifikanz (dh im Verhältnis der Bevölkerung), sondern lediglich als Indikatoren für die Größe der Unterschiede nehmen.

TTNPHNS

3

Ich kann mir zwei andere Möglichkeiten vorstellen, die sich mehr darauf konzentrieren, welche Variablen für welche Cluster wichtig sind.

Mehrklasseneinteilung. Betrachten Sie die Objekte, die zu Cluster x- Mitgliedern derselben Klasse gehören (z. B. Klasse 1), und die Objekte, die zu anderen Clustermitgliedern einer zweiten Klasse gehören (z. B. Klasse 2). Trainieren Sie einen Klassifikator, um die Klassenzugehörigkeit vorherzusagen (z. B. Klasse 1 gegen Klasse 2). Die variablen Koeffizienten des Klassifikators können dazu dienen, die Wichtigkeit jeder Variablen beim Clustering von Objekten zu Cluster x abzuschätzen . Wiederholen Sie diesen Ansatz für alle anderen Cluster.
Ähnlichkeit von Variablen innerhalb eines Clusters. Berechnen Sie für jede Variable die durchschnittliche Ähnlichkeit jedes Objekts mit seinem Schwerpunkt. Eine Variable mit hoher Ähnlichkeit zwischen einem Schwerpunkt und seinen Objekten ist für den Clusterprozess wahrscheinlich wichtiger als eine Variable mit geringer Ähnlichkeit. Natürlich ist die Größe der Ähnlichkeit relativ, aber jetzt können Variablen nach dem Grad eingestuft werden, in dem sie dazu beitragen, die Objekte in den einzelnen Clustern zu gruppieren.

Gyan Veda
quelle

0

Hier ist eine sehr einfache Methode. Beachten Sie, dass der euklidische Abstand zwischen zwei Clusterzentren eine Summe der quadratischen Unterschiede zwischen einzelnen Merkmalen ist. Wir können dann einfach die quadratische Differenz als Gewicht für jedes Merkmal verwenden.

ZillGate
quelle

Schätzen der wichtigsten Features in einer k-means-Clusterpartition

Antworten: