Ich habe einen Datensatz mit 11 Variablen und PCA (orthogonal) wurde gemacht, um die Daten zu reduzieren. Die Wahl der Anzahl der Komponenten, die beibehalten werden sollen, ergab sich für mich aus meinem Fachwissen und dem Geröllplot (siehe unten), dass zwei Hauptkomponenten (PCs) ausreichten, um die Daten zu erläutern, und die übrigen Komponenten nur weniger aussagekräftig waren.
Geröllplot mit paralleler Analyse: Beobachtete Eigenwerte (grün) und simulierte Eigenwerte basierend auf 100 Simulationen (rot). Die Geröllkurve schlägt 3 PCs vor, während der Paralleltest nur die ersten beiden PCs vorschlägt.
Wie Sie sehen, konnten nur 48% der Varianz von den ersten beiden PCs erfasst werden.
Beobachtungen in der ersten Ebene, die mit den ersten beiden PCs durchgeführt wurden, ergaben drei verschiedene Cluster unter Verwendung von hierarchischem agglomerativem Clustering (HAC) und K-Mittel-Clustering. Diese drei Cluster erwiesen sich als sehr relevant für das betreffende Problem und stimmten auch mit anderen Ergebnissen überein. Abgesehen von der Tatsache, dass nur 48% der Varianz erfasst wurden, war alles andere in Ordnung.
Einer meiner beiden Gutachter sagte: Man kann sich nicht sehr auf diese Ergebnisse verlassen, da nur 48% der Varianz erklärt werden konnten und diese geringer als erforderlich ist.
Frage
Gibt es einen erforderlichen Wert dafür, wie viel Varianz von PCA erfasst werden soll, um gültig zu sein? Kommt es nicht auf das Fachwissen und die verwendete Methodik an? Kann jemand den Wert der gesamten Analyse nur anhand des bloßen Wertes der erklärten Varianz beurteilen?
Anmerkungen
- Daten sind 11 Variablen von Genen, die mit einer sehr sensitiven molekularbiologischen Methode, der quantitativen Echtzeit-Polymerasekettenreaktion (RT-qPCR), gemessen wurden.
- Die Analysen wurden unter Verwendung von R durchgeführt.
- Antworten von Datenanalysten, die aufgrund ihrer persönlichen Erfahrung mit praktischen Problemen in den Bereichen Microarray-Analyse, Chemometrie, spektrometrische Analyse oder Ähnlichem arbeiten, werden sehr geschätzt.
- Bitte unterstützen Sie Ihre Antwort so oft wie möglich mit Referenzen.
Antworten:
Zu Ihren speziellen Fragen:
Nein, gibt es nicht (nach meinem besten Wissen). Ich bin der festen Überzeugung, dass es keinen einzigen Wert gibt, den Sie verwenden können. Keine magische Schwelle des erfassten Varianzprozentsatzes. Der Artikel von Cangelosi und Goriely: Komponentenretention in der Hauptkomponentenanalyse mit Anwendung auf cDNA-Microarray-Daten bietet einen guten Überblick über ein halbes Dutzend Standard- Daumenregeln zur Ermittlung der Anzahl der Komponenten in einer Studie. (Geröllplot, Anteil der Gesamtvarianz erklärt, Mittlere Eigenwertregel, Log-Eigenwert-Diagramm usw.) Als Faustregel würde ich mich nicht stark auf eine von ihnen verlassen.
Idealerweise sollte es abhängig sein, aber Sie müssen vorsichtig sein, wie Sie es ausdrücken und was Sie meinen.
Zum Beispiel: In der Akustik gibt es den Begriff Just Noticeable Difference ( JND ). Angenommen, Sie analysieren eine Akustikprobe und ein bestimmter PC weist Abweichungen im physikalischen Maßstab auf, die deutlich unter diesem JND-Schwellenwert liegen. Niemand kann leicht argumentieren , dass für eine Akustik Anwendung , die Sie sollten , dass PC aufgenommen haben. Sie würden unhörbares Geräusch analysieren. Es kann einige Gründe geben, diesen PC einzubeziehen, aber diese Gründe müssen nicht umgekehrt dargestellt werden. Sind sie JND für die RT-qPCR-Analyse ähnlich?
Wenn eine Komponente wie ein Legendre-Polynom 9. Ordnung aussieht und Sie starke Beweise dafür haben, dass Ihre Stichprobe aus einzelnen Gauß'schen Erhebungen besteht, haben Sie gute Gründe zu glauben, dass Sie wieder irrelevante Variationen modellieren. Was zeigen diese orthogonalen Variationsmodi? Was ist zum Beispiel "falsch" am 3. PC in Ihrem Fall?
Die Tatsache, dass Sie sagen " Diese drei Cluster erwiesen sich als sehr relevant für das betreffende Problem ", ist kein wirklich starkes Argument. Sie könnten einfach Daten ausgraben (was schlecht ist). Es gibt andere Techniken, z. Isomaps und lokal-lineare Einbettung , die auch ziemlich cool sind, warum nicht diese verwenden? Warum haben Sie sich speziell für PCA entschieden?
Die Übereinstimmung Ihrer Ergebnisse mit anderen Ergebnissen ist wichtiger, insbesondere wenn diese als fundiert gelten. Grabe tiefer darüber nach. Versuchen Sie herauszufinden, ob Ihre Ergebnisse mit den PCA-Ergebnissen anderer Studien übereinstimmen.
Im Allgemeinen sollte man das nicht tun. Denken Sie nicht, dass Ihr Rezensent ein Bastard oder so etwas ist; 48% sind in der Tat ein kleiner Prozentsatz, der ohne angemessene Begründung beibehalten werden muss.
quelle