Ich möchte die Dimensionalität von Systemen höherer Ordnung reduzieren und den größten Teil der Kovarianz auf einem vorzugsweise zweidimensionalen oder eindimensionalen Feld erfassen. Ich verstehe, dass dies über die Hauptkomponentenanalyse erfolgen kann, und ich habe PCA in vielen Szenarien verwendet. Ich habe es jedoch nie mit booleschen Datentypen verwendet und mich gefragt, ob es sinnvoll ist, PCA mit diesem Satz durchzuführen. Angenommen, ich habe qualitative oder beschreibende Metriken und ordne eine "1" zu, wenn diese Metrik für diese Dimension gültig ist, und eine "0", wenn dies nicht der Fall ist (Binärdaten). Stellen Sie sich zum Beispiel vor, Sie versuchen, die sieben Zwerge in Schneewittchen zu vergleichen. Wir haben:
Doc, Dopey, Bashful, Grumpy, Sneezy, Sleepy und Happy, und Sie möchten sie nach Qualitäten ordnen und haben dies wie folgt getan:
So ist Bashful zum Beispiel laktoseintolerant und steht nicht auf der Ehrentafel. Dies ist eine rein hypothetische Matrix, und meine reale Matrix enthält viel mehr beschreibende Spalten. Meine Frage ist, wäre es immer noch angebracht, PCA auf dieser Matrix durchzuführen, um die Ähnlichkeit zwischen Individuen zu finden?
quelle
a means of finding the similarity between individuals
. Diese Aufgabe ist jedoch für eine Clusteranalyse vorgesehen, nicht für eine PCA.Antworten:
Ich möchte Ihnen eine relativ neue Technik für die automatische Strukturextraktion aus kategorialen variablen Daten vorschlagen (einschließlich Binärdaten). Die Methode heißt CorEx von Greg van Steeg von der University of Southern California. Die Idee ist, den Begriff der Gesamtkorrelation auf der Grundlage der Entropiemaße zu verwenden. Es ist ansprechend wegen seiner Einfachheit und der fehlenden Einstellung einer großen Anzahl von Hyperparametern.
Das Papier über hierarchische Darstellungen (das jüngste baut auf den vorherigen Maßnahmen auf). http://arxiv.org/pdf/1410.7404.pdf
quelle
Sie können auch die Mehrfachkorrespondenzanalyse (Multiple Correspondence Analysis, MCA) verwenden, die eine Erweiterung der Hauptkomponentenanalyse darstellt, wenn die zu analysierenden Variablen kategorisch und nicht quantitativ sind (dies ist hier bei Ihren Binärvariablen der Fall). Siehe zum Beispiel Husson et al. (2010) oder Abdi und Valentin (2007) . Ein ausgezeichnetes R-Paket zur Durchführung von MCA (und hierarchischem Clustering auf PCs) ist FactoMineR .
quelle
inflation of the feature space
und warum es in PCA und nicht in MCA auftreten würde, genauer erläutern .inflation of the feature space
Phänomen falsch verstanden . Es scheint ins Spiel zu kommen, wenn von CA zu MCA gewechselt wird, ist aber kein inhärentes Problem von PCA. Ich werde meine Antwort entfernen, wenn Sie diesen Kommentar gelesen haben. Danke, dass du mir das klar gemacht hast.Wenn Sie sich PCA als eine Erkundungstechnik vorstellen, mit der Sie die Beziehungen zwischen Variablen visualisieren können (und meiner Meinung nach ist dies die einzige Möglichkeit, darüber nachzudenken), dann gibt es keinen Grund, warum Sie keine Binärdaten eingeben können Variablen. Hier ist zum Beispiel ein Biplot Ihrer Daten
Es scheint einigermaßen nützlich. Sie können beispielsweise feststellen, dass Doc und Bashful sehr ähnlich sind. diese HR ist den drei anderen Variablen ziemlich unähnlich; Sleepy und Sneezy sind sehr unterschiedlich, etc.
quelle