Ich muss die Anzahl der Variablen reduzieren, um eine Clusteranalyse durchzuführen. Meine Variablen sind stark korreliert, daher habe ich mir überlegt, eine Faktoranalyse-PCA (Principal Component Analysis) durchzuführen. Wenn ich jedoch die resultierenden Bewertungen verwende, sind meine Cluster nicht ganz korrekt (im Vergleich zu früheren Klassifizierungen in der Literatur).
Frage:
Kann ich die Rotationsmatrix verwenden, um die Variablen mit den größten Belastungen für jede Komponente / jeden Faktor auszuwählen und nur diese Variablen für mein Clustering zu verwenden?
Alle bibliografischen Verweise wären ebenfalls hilfreich.
Aktualisieren:
Einige Erläuterungen:
Mein Ziel: Ich muss eine Cluster-Analyse mit einem Zwei-Schritt-Algorithmus von SPSS durchführen, aber meine Variablen sind nicht unabhängig. Deshalb habe ich darüber nachgedacht, einige davon zu verwerfen.
Mein Datensatz: Ich arbeite an 15 skalaren Parametern (meine Variablen) von 100.000 Fällen. Einige Variablen sind stark korreliert ( Pearson)
Mein Zweifel: Da ich nur unabhängige Variablen benötige, habe ich mir überlegt, eine Hauptkomponentenanalyse durchzuführen (Entschuldigung: Ich habe in meiner ursprünglichen Frage, meinem Fehler, fälschlicherweise über die Faktoranalyse gesprochen) und für jede Komponente nur die Variablen mit den größten Belastungen auszuwählen. Ich weiß, dass der PCA-Prozess einige willkürliche Schritte beinhaltet, aber ich fand heraus, dass diese Auswahl tatsächlich der von IT Jolliffe (1972 & 2002) vorgeschlagenen " Methode B4 " zur Auswahl von Variablen ähnelt und 1999 auch von JR King & DA Jackson vorgeschlagen wurde .
Ich dachte also, auf diese Weise einige Untergruppen unabhängiger Variablen auszuwählen. Ich werde dann die Gruppen verwenden, um verschiedene Cluster-Analysen durchzuführen und die Ergebnisse zu vergleichen.
Antworten:
Ich werde, wie es meine Gewohnheit ist, einen Schritt zurücktreten und fragen, was genau Sie zu tun versuchen. Die Faktorenanalyse dient dazu, latente Variablen zu finden. Wenn Sie latente Variablen finden und zu Clustern zusammenfassen möchten, ist das, was Sie tun, richtig. Sie möchten jedoch lediglich die Anzahl der Variablen reduzieren, was stattdessen eine Analyse der Hauptkomponenten nahe legt.
In beiden Fällen müssen Sie die Clusteranalyse für neue Variablen interpretieren, und diese neuen Variablen sind einfach gewichtete Summen der alten Variablen.
Wie viele Variablen haben Sie? Wie korreliert sind sie? Wenn es viel zu viele gibt und sie sehr stark korreliert sind, können Sie nach allen Korrelationen über eine sehr hohe Zahl suchen und eine Variable aus jedem Paar zufällig löschen. Dies reduziert die Anzahl der Variablen und lässt die Variablen unverändert.
Lassen Sie mich auch @StasK über die Notwendigkeit, dies überhaupt zu tun, und @ rolando2 über die Nützlichkeit der Suche nach etwas anderem als dem, was zuvor gefunden wurde, wiederholen. Wie mein Lieblingsprofessor in der Graduiertenschule sagte: "Wenn Sie nicht überrascht sind, haben Sie nichts gelernt."
quelle
Eine Möglichkeit, gleichzeitig eine Faktoranalyse und eine Clusteranalyse durchzuführen, besteht in Modellen für strukturelle Gleichungsmischungen. In diesen Modellen postulieren Sie, dass es für jeden Cluster separate Modelle gibt (in diesem Fall Faktormodelle). Sie müssten neben der Kovarianzanalyse auch die Mittelwertanalyse haben und sich in größerem Maße mit der Identifizierung befassen als bei der einfachen Vanillefaktoranalyse. Die Idee, die von der SEM-Seite angegangen wurde, taucht in Jedidi et al. al. (1997) und von der Clusterseite in modellbasiertem Clustering von Adrian Raftery . Diese Art der Analyse ist offenbar in Mplus verfügbar .
quelle
Ich denke nicht, dass es schlicht und einfach um "Korrektheit" geht, sondern darum, ob es das schafft, was Sie tun wollen. Der von Ihnen beschriebene Ansatz führt zu einer verwässerten Clusterbildung nach bestimmten Faktoren, da Sie für jeden Faktor nur einen Indikator verwenden. Jeder dieser Indikatoren ist ein unvollkommener Ersatz für den zugrunde liegenden latenten Faktor. Das ist ein Problem.
Ein weiteres Problem ist, dass die Faktorenanalyse selbst, wie ich (und viele andere Personen) berichtet haben , voller subjektiver Entscheidungen ist, die den Umgang mit fehlenden Daten, die Anzahl der zu extrahierenden Faktoren, die Extraktion, die Rotation und so weiter betreffen auf. Es mag also alles andere als klar sein, dass die Faktoren, die Sie auf eine schnelle, softwarebezogene Art und Weise extrahiert haben (wie ich glaube, Sie haben es angedeutet), in jeder Hinsicht die "besten" sind.
Insgesamt haben Sie also möglicherweise verwässerte Versionen von Faktoren verwendet, die sich selbst als die besten Methoden zur Charakterisierung der Ihren Daten zugrunde liegenden Themen erweisen. Ich würde nicht erwarten, dass die Cluster, die sich aus solchen Eingabevariablen ergeben, die informativsten oder eindeutigsten sind.
In einem anderen Punkt erscheint es interessant, dass Sie es für ein Problem halten, Cluster-Mitgliedschaften / -Profile zu haben, die nicht mit den Ergebnissen anderer Forscher übereinstimmen. Manchmal können enttäuschende Befunde sehr gesund sein!
quelle
Was in Ihrem Fall passieren könnte, ist, dass die in der Faktoranalyse extrahierten Faktoren positive und negative Lasten aus den ursprünglichen Variablen ausgleichen. Dies würde die Differenzierbarkeit verringern, die der Zweck der Clusterbildung ist.
Können Sie jeden extrahierten Faktor in 2 aufteilen - einen mit nur den positiven und den anderen nur den negativen Belastungen?
Ersetzen Sie die Faktorwerte für jeden Fall für jeden Faktor durch positive und negative Werte und versuchen Sie, diese neuen Werte in Gruppen zusammenzufassen.
Bitte schreiben Sie uns, ob dies für Sie funktioniert.
quelle
Sie können sowohl nach hohen als auch nach niedrigen Werten suchen und alle Variablen in den Faktoren belassen. Auf diese Weise müssen die Faktoren nicht gekürzt werden. Wenn Sie Faktor 1 auf eine bestimmte Weise aufteilen, basierend auf den Vorzeichen der Ladungen, können die Vorzeichen in Faktor 2 sehr unterschiedlich sein. Würden Sie dann Faktor 2 anders als Faktor 1 zerschneiden? Das scheint verwirrend zu sein.
quelle