Gibt es eine methodische Möglichkeit, die Richtungen, Größen usw. der PCA-Ergebnisse für verschiedene Proben aus derselben Population zu vergleichen?
Ich lasse die Art des Tests absichtlich vage, weil ich all die verschiedenen Möglichkeiten hören möchte ... zB könnte es einen Test geben (und ich spekuliere hier), der die Größen der ersten Hauptkomponenten vergleicht, oder a Testen Sie den Vergleich der Richtungen der Hauptkomponenten, oder es gibt eine Art Abstandsmaß zwischen den PCA-Ergebnissen und einer Teststatistik für deren Gleichheit.
Was den Anwendungsfall betrifft, habe ich nichts im Sinn. Nur aus Neugier, vielleicht als Erkundungstechnik.
hypothesis-testing
pca
variance
inference
Shadowtalker
quelle
quelle
Antworten:
Soweit ich verstanden habe, stellen Sie sich vor, Sie haben zwei Wolken mit jeweils Punkten in einem dimensionalen Raum. Sie führen PCA für jede Cloud separat durch und möchten dann die PCA-Ergebnisse zwischen Clouds vergleichen und auf signifikante Unterschiede bei einigen der wichtigeren PCA-Funktionen testen.dn d
Ich glaube nicht, dass es zu diesem Zweck Standardtests gibt. Für eine bestimmte Frage kann man sich wahrscheinlich eine Methode oder einen Test einfallen lassen, aber Ihre Frage ist etwas zu weit gefasst, um mögliche Tests zu finden.
Ein allgemeiner Ansatz ist jedoch die Verwendung von Permutationstests. Angenommen, Sie möchten testen, ob PC1 in beiden Beispielsätzen ("Wolken") unterschiedlich ist. Sie können den Winkel zwischen ihnen berechnen . Dann bündeln Sie alle Punkte in einer großen Wolke, teilen sie zufällig in zwei Wolken der Größe (dies wird normalerweise als "Mischen der Etiketten" bezeichnet), führen zwei PCAs aus und berechnen zwischen zwei PC1s. Zufällige Teilungen können viele Male durchgeführt werden (z. B. Mal), was zu einer Verteilung von die unter einer Nullhypothese ohne Unterschied zwischen Wolken erwartet wird. Dann vergleichen Sie einfach Ihr tatsächliches mit dieser Verteilung und erhalten ein2 n n θ 10θ 2n n θ θ θ p10000 θ θ p -Wert.
Der gleiche Ansatz kann verwendet werden, um z. B. die größten Eigenwerte zu vergleichen. Oder kleinste Eigenwerte. Oder eigentlich fast alles, was Sie vergleichen möchten.
Abgesehen davon, wenn Sie eine Teststatistik für die "Gleichheit der PCA-Ergebnisse" insgesamt wünschen, sollten Sie vielleicht einfach einen Test verwenden, der zwei Kovarianzmatrizen vergleicht (ohne überhaupt eine PCA durchzuführen). ZB Box-M-Test (eine multivariate Verallgemeinerung eines Bartlett-Tests auf Varianzgleichheit).
quelle
Angenommen, Sie haben den Beispielsatz2 1 und 2 und haben ihre 1 bis n-ten Hauptkomponenten gefunden, die 90% der Informationen abbilden können (n kann für beide unterschiedlich sein, und 90 ist willkürlich).
Sie können berechnen, wie viele Informationen in set1 beibehalten werden können, nachdem sie dem Hauptkomponentenbereich und zurück zugeordnet wurden. Legen Sie einen Schwellenwert für die Anzahl der Informationen fest, die Sie verlieren möchten, bevor Sie den neuen Satz deklarieren. Dieser ist unterschiedlich genug, um seine eigenen Hauptkomponenten zu verdienen.
quelle