Kann ich PCA zur Variablenauswahl für die Clusteranalyse verwenden?

12

Ich muss die Anzahl der Variablen reduzieren, um eine Clusteranalyse durchzuführen. Meine Variablen sind stark korreliert, daher habe ich mir überlegt, eine Faktoranalyse-PCA (Principal Component Analysis) durchzuführen. Wenn ich jedoch die resultierenden Bewertungen verwende, sind meine Cluster nicht ganz korrekt (im Vergleich zu früheren Klassifizierungen in der Literatur).

Frage:

Kann ich die Rotationsmatrix verwenden, um die Variablen mit den größten Belastungen für jede Komponente / jeden Faktor auszuwählen und nur diese Variablen für mein Clustering zu verwenden?

Alle bibliografischen Verweise wären ebenfalls hilfreich.

Aktualisieren:

Einige Erläuterungen:

  • Mein Ziel: Ich muss eine Cluster-Analyse mit einem Zwei-Schritt-Algorithmus von SPSS durchführen, aber meine Variablen sind nicht unabhängig. Deshalb habe ich darüber nachgedacht, einige davon zu verwerfen.

  • Mein Datensatz: Ich arbeite an 15 skalaren Parametern (meine Variablen) von 100.000 Fällen. Einige Variablen sind stark korreliert ( Pearson)>0.9

  • Mein Zweifel: Da ich nur unabhängige Variablen benötige, habe ich mir überlegt, eine Hauptkomponentenanalyse durchzuführen (Entschuldigung: Ich habe in meiner ursprünglichen Frage, meinem Fehler, fälschlicherweise über die Faktoranalyse gesprochen) und für jede Komponente nur die Variablen mit den größten Belastungen auszuwählen. Ich weiß, dass der PCA-Prozess einige willkürliche Schritte beinhaltet, aber ich fand heraus, dass diese Auswahl tatsächlich der von IT Jolliffe (1972 & 2002) vorgeschlagenen " Methode B4 " zur Auswahl von Variablen ähnelt und 1999 auch von JR King & DA Jackson vorgeschlagen wurde .

    Ich dachte also, auf diese Weise einige Untergruppen unabhängiger Variablen auszuwählen. Ich werde dann die Gruppen verwenden, um verschiedene Cluster-Analysen durchzuführen und die Ergebnisse zu vergleichen.

en.
quelle
1
Wenn Sie die richtige Antwort wissen, warum wird die Analyse überhaupt durchgeführt?
StasK
1
Warum müssen Sie Ihrer Meinung nach die Anzahl der Variablen für die Clusteranalyse reduzieren? Ich denke, dass keines der modernen Tools der Clusteranalyse Einschränkungen hinsichtlich der Anzahl der Eingabevariablen aufweist. Wenn Sie einen Test mit 120 Artikeln haben, wird es natürlich kompliziert.
StasK
Mögliches Duplikat der Verwendung der Hauptkomponentenanalyse (PCA) für die Merkmalsauswahl
Amöbe sagt Reinstate Monica
Es scheint mir, dass die Hinzufügung des Clusteranalyse-Aspekts dieses Q es deutlich genug macht, um offen zu bleiben.
gung - Reinstate Monica
Sie scheinen strengere Kriterien auf Duplikate anzuwenden als ich, @gung; vielleicht hast du recht (und auch hier läuft die abstimmung nicht gut). In diesem speziellen Fall fragte das OP jedoch nach der einfachsten PCA-basierten Funktionsauswahl (wie in seinem Update erläutert), die in dem von mir vorgeschlagenen Thread behandelt wird. Andererseits hat StasK hier eine interessante Antwort gepostet, die sich speziell mit Clustering befasst ...
Amöbe sagt Reinstate Monica

Antworten:

7

Ich werde, wie es meine Gewohnheit ist, einen Schritt zurücktreten und fragen, was genau Sie zu tun versuchen. Die Faktorenanalyse dient dazu, latente Variablen zu finden. Wenn Sie latente Variablen finden und zu Clustern zusammenfassen möchten, ist das, was Sie tun, richtig. Sie möchten jedoch lediglich die Anzahl der Variablen reduzieren, was stattdessen eine Analyse der Hauptkomponenten nahe legt.

In beiden Fällen müssen Sie die Clusteranalyse für neue Variablen interpretieren, und diese neuen Variablen sind einfach gewichtete Summen der alten Variablen.

Wie viele Variablen haben Sie? Wie korreliert sind sie? Wenn es viel zu viele gibt und sie sehr stark korreliert sind, können Sie nach allen Korrelationen über eine sehr hohe Zahl suchen und eine Variable aus jedem Paar zufällig löschen. Dies reduziert die Anzahl der Variablen und lässt die Variablen unverändert.

Lassen Sie mich auch @StasK über die Notwendigkeit, dies überhaupt zu tun, und @ rolando2 über die Nützlichkeit der Suche nach etwas anderem als dem, was zuvor gefunden wurde, wiederholen. Wie mein Lieblingsprofessor in der Graduiertenschule sagte: "Wenn Sie nicht überrascht sind, haben Sie nichts gelernt."

Peter Flom - Wiedereinsetzung von Monica
quelle
1
Zuallererst tut es mir leid: Ich beziehe mich tatsächlich auf eine Hauptkomponentenanalyse, nicht auf eine Faktorenanalyse, mein Fehler. Außerdem suchte ich nach einer Möglichkeit, nicht willkürlich die korrelierte Variable auszuwählen, die ich behalten werde. Ich füge weitere Informationen über das Problem , das oben .. danke wieder
en.
5

Eine Möglichkeit, gleichzeitig eine Faktoranalyse und eine Clusteranalyse durchzuführen, besteht in Modellen für strukturelle Gleichungsmischungen. In diesen Modellen postulieren Sie, dass es für jeden Cluster separate Modelle gibt (in diesem Fall Faktormodelle). Sie müssten neben der Kovarianzanalyse auch die Mittelwertanalyse haben und sich in größerem Maße mit der Identifizierung befassen als bei der einfachen Vanillefaktoranalyse. Die Idee, die von der SEM-Seite angegangen wurde, taucht in Jedidi et al. al. (1997) und von der Clusterseite in modellbasiertem Clustering von Adrian Raftery . Diese Art der Analyse ist offenbar in Mplus verfügbar .

StasK
quelle
1
Vielen Dank für die Eingaben, insbesondere für die Referenzen, aber ich habe fälschlicherweise auf die Faktorenanalyse Bezug genommen: Ich habe tatsächlich über Hauptkomponenten nachgedacht, um meine Variablenmenge auf eine Untergruppe unabhängiger Variablen zu reduzieren. mein Fehler
de.
2

Ich denke nicht, dass es schlicht und einfach um "Korrektheit" geht, sondern darum, ob es das schafft, was Sie tun wollen. Der von Ihnen beschriebene Ansatz führt zu einer verwässerten Clusterbildung nach bestimmten Faktoren, da Sie für jeden Faktor nur einen Indikator verwenden. Jeder dieser Indikatoren ist ein unvollkommener Ersatz für den zugrunde liegenden latenten Faktor. Das ist ein Problem.

Ein weiteres Problem ist, dass die Faktorenanalyse selbst, wie ich (und viele andere Personen) berichtet haben , voller subjektiver Entscheidungen ist, die den Umgang mit fehlenden Daten, die Anzahl der zu extrahierenden Faktoren, die Extraktion, die Rotation und so weiter betreffen auf. Es mag also alles andere als klar sein, dass die Faktoren, die Sie auf eine schnelle, softwarebezogene Art und Weise extrahiert haben (wie ich glaube, Sie haben es angedeutet), in jeder Hinsicht die "besten" sind.

Insgesamt haben Sie also möglicherweise verwässerte Versionen von Faktoren verwendet, die sich selbst als die besten Methoden zur Charakterisierung der Ihren Daten zugrunde liegenden Themen erweisen. Ich würde nicht erwarten, dass die Cluster, die sich aus solchen Eingabevariablen ergeben, die informativsten oder eindeutigsten sind.

In einem anderen Punkt erscheint es interessant, dass Sie es für ein Problem halten, Cluster-Mitgliedschaften / -Profile zu haben, die nicht mit den Ergebnissen anderer Forscher übereinstimmen. Manchmal können enttäuschende Befunde sehr gesund sein!

rolando2
quelle
vielen dank, ich habe oben weitere informationen hinzugefügt, um meine zweifel zu spezifizieren
en.
0

Was in Ihrem Fall passieren könnte, ist, dass die in der Faktoranalyse extrahierten Faktoren positive und negative Lasten aus den ursprünglichen Variablen ausgleichen. Dies würde die Differenzierbarkeit verringern, die der Zweck der Clusterbildung ist.

Können Sie jeden extrahierten Faktor in 2 aufteilen - einen mit nur den positiven und den anderen nur den negativen Belastungen?

Ersetzen Sie die Faktorwerte für jeden Fall für jeden Faktor durch positive und negative Werte und versuchen Sie, diese neuen Werte in Gruppen zusammenzufassen.

Bitte schreiben Sie uns, ob dies für Sie funktioniert.

Eine Bose
quelle
0

Sie können sowohl nach hohen als auch nach niedrigen Werten suchen und alle Variablen in den Faktoren belassen. Auf diese Weise müssen die Faktoren nicht gekürzt werden. Wenn Sie Faktor 1 auf eine bestimmte Weise aufteilen, basierend auf den Vorzeichen der Ladungen, können die Vorzeichen in Faktor 2 sehr unterschiedlich sein. Würden Sie dann Faktor 2 anders als Faktor 1 zerschneiden? Das scheint verwirrend zu sein.

Raid Amin
quelle