Gibt es einen Test / eine Technik / eine Methode zum Vergleichen der Zerlegung von Hauptkomponenten zwischen Proben?

8

Gibt es eine methodische Möglichkeit, die Richtungen, Größen usw. der PCA-Ergebnisse für verschiedene Proben aus derselben Population zu vergleichen?

Ich lasse die Art des Tests absichtlich vage, weil ich all die verschiedenen Möglichkeiten hören möchte ... zB könnte es einen Test geben (und ich spekuliere hier), der die Größen der ersten Hauptkomponenten vergleicht, oder a Testen Sie den Vergleich der Richtungen der Hauptkomponenten, oder es gibt eine Art Abstandsmaß zwischen den PCA-Ergebnissen und einer Teststatistik für deren Gleichheit.

Was den Anwendungsfall betrifft, habe ich nichts im Sinn. Nur aus Neugier, vielleicht als Erkundungstechnik.

Shadowtalker
quelle
Stellen Sie sich zwei Sätze von Samples vor, die denselben Raum bevölkern (dh dieselben Funktionen haben)? Also im Grunde genommen zwei verschiedene Punktwolken, ist das richtig? Nehmen Sie an, dass die Wolken die gleiche Anzahl von Punkten haben oder nicht unbedingt?
Amöbe
Ja, tut mir leid, dies sind zwei Stichproben derselben Population. Wenn es eine andere Antwort für Proben ungleicher Größe ist, würde ich gerne davon erfahren.
Shadowtalker
Das Googeln mit dem Begriff "Multigruppenfaktor-Analyse" gibt viele Links, es ist ein breiter (und ich denke gut) diskutierter Bereich. Wenn ich mich richtig erinnere, gibt es sogar eine spezielle Software
Gottfried Helms

Antworten:

6

Soweit ich verstanden habe, stellen Sie sich vor, Sie haben zwei Wolken mit jeweils Punkten in einem dimensionalen Raum. Sie führen PCA für jede Cloud separat durch und möchten dann die PCA-Ergebnisse zwischen Clouds vergleichen und auf signifikante Unterschiede bei einigen der wichtigeren PCA-Funktionen testen.dnd

Ich glaube nicht, dass es zu diesem Zweck Standardtests gibt. Für eine bestimmte Frage kann man sich wahrscheinlich eine Methode oder einen Test einfallen lassen, aber Ihre Frage ist etwas zu weit gefasst, um mögliche Tests zu finden.

Ein allgemeiner Ansatz ist jedoch die Verwendung von Permutationstests. Angenommen, Sie möchten testen, ob PC1 in beiden Beispielsätzen ("Wolken") unterschiedlich ist. Sie können den Winkel zwischen ihnen berechnen . Dann bündeln Sie alle Punkte in einer großen Wolke, teilen sie zufällig in zwei Wolken der Größe (dies wird normalerweise als "Mischen der Etiketten" bezeichnet), führen zwei PCAs aus und berechnen zwischen zwei PC1s. Zufällige Teilungen können viele Male durchgeführt werden (z. B. Mal), was zu einer Verteilung von die unter einer Nullhypothese ohne Unterschied zwischen Wolken erwartet wird. Dann vergleichen Sie einfach Ihr tatsächliches mit dieser Verteilung und erhalten ein2 n n θ 10θ2nnθθ θ p10000θθp-Wert.

Der gleiche Ansatz kann verwendet werden, um z. B. die größten Eigenwerte zu vergleichen. Oder kleinste Eigenwerte. Oder eigentlich fast alles, was Sie vergleichen möchten.

Abgesehen davon, wenn Sie eine Teststatistik für die "Gleichheit der PCA-Ergebnisse" insgesamt wünschen, sollten Sie vielleicht einfach einen Test verwenden, der zwei Kovarianzmatrizen vergleicht (ohne überhaupt eine PCA durchzuführen). ZB Box-M-Test (eine multivariate Verallgemeinerung eines Bartlett-Tests auf Varianzgleichheit).

Amöbe
quelle
+1, dass es wahrscheinlich sinnvoller ist, die Kovarianzmatrizen direkt zu vergleichen
Andrew M
1
Beim erneuten Lesen Ihrer Antwort fiel mir gerade ein, dass der durchschnittliche Winkel zwischen den entsprechenden Hauptachsen wahrscheinlich so ist, wie ich es mir vorgestellt hatte.
Shadowtalker
1

Angenommen, Sie haben den Beispielsatz2 1 und 2 und haben ihre 1 bis n-ten Hauptkomponenten gefunden, die 90% der Informationen abbilden können (n kann für beide unterschiedlich sein, und 90 ist willkürlich).

Sie können berechnen, wie viele Informationen in set1 beibehalten werden können, nachdem sie dem Hauptkomponentenbereich und zurück zugeordnet wurden. Legen Sie einen Schwellenwert für die Anzahl der Informationen fest, die Sie verlieren möchten, bevor Sie den neuen Satz deklarieren. Dieser ist unterschiedlich genug, um seine eigenen Hauptkomponenten zu verdienen.

Dan Erez
quelle