Gibt es eine erforderliche Menge an Varianz, die von PCA erfasst wird, um spätere Analysen durchzuführen?

15

Ich habe einen Datensatz mit 11 Variablen und PCA (orthogonal) wurde gemacht, um die Daten zu reduzieren. Die Wahl der Anzahl der Komponenten, die beibehalten werden sollen, ergab sich für mich aus meinem Fachwissen und dem Geröllplot (siehe unten), dass zwei Hauptkomponenten (PCs) ausreichten, um die Daten zu erläutern, und die übrigen Komponenten nur weniger aussagekräftig waren.

Bildbeschreibung hier eingeben
Geröllplot mit paralleler Analyse: Beobachtete Eigenwerte (grün) und simulierte Eigenwerte basierend auf 100 Simulationen (rot). Die Geröllkurve schlägt 3 PCs vor, während der Paralleltest nur die ersten beiden PCs vorschlägt.

Bildbeschreibung hier eingeben

Wie Sie sehen, konnten nur 48% der Varianz von den ersten beiden PCs erfasst werden.

Beobachtungen in der ersten Ebene, die mit den ersten beiden PCs durchgeführt wurden, ergaben drei verschiedene Cluster unter Verwendung von hierarchischem agglomerativem Clustering (HAC) und K-Mittel-Clustering. Diese drei Cluster erwiesen sich als sehr relevant für das betreffende Problem und stimmten auch mit anderen Ergebnissen überein. Abgesehen von der Tatsache, dass nur 48% der Varianz erfasst wurden, war alles andere in Ordnung.

Einer meiner beiden Gutachter sagte: Man kann sich nicht sehr auf diese Ergebnisse verlassen, da nur 48% der Varianz erklärt werden konnten und diese geringer als erforderlich ist.

Frage
Gibt es einen erforderlichen Wert dafür, wie viel Varianz von PCA erfasst werden soll, um gültig zu sein? Kommt es nicht auf das Fachwissen und die verwendete Methodik an? Kann jemand den Wert der gesamten Analyse nur anhand des bloßen Wertes der erklärten Varianz beurteilen?

Anmerkungen

  • Daten sind 11 Variablen von Genen, die mit einer sehr sensitiven molekularbiologischen Methode, der quantitativen Echtzeit-Polymerasekettenreaktion (RT-qPCR), gemessen wurden.
  • Die Analysen wurden unter Verwendung von R durchgeführt.
  • Antworten von Datenanalysten, die aufgrund ihrer persönlichen Erfahrung mit praktischen Problemen in den Bereichen Microarray-Analyse, Chemometrie, spektrometrische Analyse oder Ähnlichem arbeiten, werden sehr geschätzt.
  • Bitte unterstützen Sie Ihre Antwort so oft wie möglich mit Referenzen.
Promotion
quelle
Die Verteilung von Eigenwerten ist für die Zufallsmatrixtheorie ziemlich wichtig. Die Marcenko-Pastur-Distribution wird manchmal für ähnliche Anwendungen verwendet.
John
Was zeigt das Grün und was zeigen die orange / bräunlichen Linien? Es gibt nur in der Achse.
usεr11852 sagt Reinstate Monic
@ usεr11852, siehe aktualisierte Überschrift.
Promotion am

Antworten:

8

Zu Ihren speziellen Fragen:

Gibt es einen erforderlichen Wert dafür, wie viel Varianz von PCA erfasst werden muss, um gültig zu sein?

Nein, gibt es nicht (nach meinem besten Wissen). Ich bin der festen Überzeugung, dass es keinen einzigen Wert gibt, den Sie verwenden können. Keine magische Schwelle des erfassten Varianzprozentsatzes. Der Artikel von Cangelosi und Goriely: Komponentenretention in der Hauptkomponentenanalyse mit Anwendung auf cDNA-Microarray-Daten bietet einen guten Überblick über ein halbes Dutzend Standard- Daumenregeln zur Ermittlung der Anzahl der Komponenten in einer Studie. (Geröllplot, Anteil der Gesamtvarianz erklärt, Mittlere Eigenwertregel, Log-Eigenwert-Diagramm usw.) Als Faustregel würde ich mich nicht stark auf eine von ihnen verlassen.

Kommt es nicht auf das Fachwissen und die verwendete Methodik an?

Idealerweise sollte es abhängig sein, aber Sie müssen vorsichtig sein, wie Sie es ausdrücken und was Sie meinen.

Zum Beispiel: In der Akustik gibt es den Begriff Just Noticeable Difference ( JND ). Angenommen, Sie analysieren eine Akustikprobe und ein bestimmter PC weist Abweichungen im physikalischen Maßstab auf, die deutlich unter diesem JND-Schwellenwert liegen. Niemand kann leicht argumentieren , dass für eine Akustik Anwendung , die Sie sollten , dass PC aufgenommen haben. Sie würden unhörbares Geräusch analysieren. Es kann einige Gründe geben, diesen PC einzubeziehen, aber diese Gründe müssen nicht umgekehrt dargestellt werden. Sind sie JND für die RT-qPCR-Analyse ähnlich?

Wenn eine Komponente wie ein Legendre-Polynom 9. Ordnung aussieht und Sie starke Beweise dafür haben, dass Ihre Stichprobe aus einzelnen Gauß'schen Erhebungen besteht, haben Sie gute Gründe zu glauben, dass Sie wieder irrelevante Variationen modellieren. Was zeigen diese orthogonalen Variationsmodi? Was ist zum Beispiel "falsch" am 3. PC in Ihrem Fall?

Die Tatsache, dass Sie sagen " Diese drei Cluster erwiesen sich als sehr relevant für das betreffende Problem ", ist kein wirklich starkes Argument. Sie könnten einfach Daten ausgraben (was schlecht ist). Es gibt andere Techniken, z. Isomaps und lokal-lineare Einbettung , die auch ziemlich cool sind, warum nicht diese verwenden? Warum haben Sie sich speziell für PCA entschieden?

Die Übereinstimmung Ihrer Ergebnisse mit anderen Ergebnissen ist wichtiger, insbesondere wenn diese als fundiert gelten. Grabe tiefer darüber nach. Versuchen Sie herauszufinden, ob Ihre Ergebnisse mit den PCA-Ergebnissen anderer Studien übereinstimmen.

Kann jemand den Wert der gesamten Analyse nur anhand des bloßen Wertes der erklärten Varianz beurteilen?

Im Allgemeinen sollte man das nicht tun. Denken Sie nicht, dass Ihr Rezensent ein Bastard oder so etwas ist; 48% sind in der Tat ein kleiner Prozentsatz, der ohne angemessene Begründung beibehalten werden muss.

usεr11852 sagt Reinstate Monic
quelle
Vielen Dank für Ihre Antwort. RT-qPCR ist nichts Besonderes wie JND. Tatsächlich ist RT-qPCR nur die Technik, mit der wir die Genvariablen selbst messen. Höchstwahrscheinlich haben Sie die PCs gemeint, die die neuen Variablen sind, die aus der linearen Kombination aller 11 Variablen bestehen. Angesichts anderer beschreibender Variablen erwiesen sich die ersten beiden PCs als mit Zellen der Immunantwort verwandt, während der dritte PC dies nicht ist. Ansonsten ist am 3. PC nichts auszusetzen.
Promotion am
Ich werde mir die Datenbaggertechniken ansehen und mehr darüber erfahren. Aber wissen Sie zufällig, ob dies von einem oder mehreren R-Paketen implementiert wurde?
Promotion am
1
@doctorate: Die ganze Idee ist, Datenbaggerung zu vermeiden. Es tut mir leid, aber ich kenne keine Pakete, die explizit darauf testen.
usεr11852 sagt Reinstate Monic
1
+1, aber Ihr Satz über Datenbaggerung ("Sie könnten einfache Datenbaggerung") ist nicht sehr klar und vielleicht war @doctorate deswegen verwirrt. Tatsächlich finde ich den ganzen Absatz nicht sehr klar: Was haben Isomap und LLE mit Datenbaggern zu tun? ist das Ausbaggern von Daten gut oder schlecht? Der Wiki-Artikel, auf den Sie verlinkt haben, beginnt damit, ihn als etw gut zu bezeichnen. Vielleicht könnten Sie diesen Absatz etwas expliziter gestalten?
Amöbe sagt Reinstate Monica