Warum bedeutet die durch Bartlett-Test diagnostizierte Sphärizität, dass eine PCA unangemessen ist?

14

Ich verstehe, dass es bei Bartletts Test darum geht, festzustellen, ob Ihre Proben aus Populationen mit gleichen Varianzen stammen.

Wenn die Stichproben aus Populationen mit gleichen Varianzen stammen, wird die Nullhypothese des Tests nicht zurückgewiesen, und daher ist eine Hauptkomponentenanalyse ungeeignet.

Ich bin nicht sicher, wo das Problem mit dieser Situation (mit einem homoskedastischen Datensatz) liegt. Was ist das Problem mit einem Datensatz, bei dem die zugrunde liegende Verteilung aller Ihrer Daten gleich ist? Ich sehe die große Sache einfach nicht, wenn dieser Zustand vorliegt. Warum würde dies eine PCA unangemessen machen?

Ich kann keine guten Informationen online finden. Hat jemand Erfahrung mit Dolmetschen, warum dieser Test für eine PCA relevant ist?

Matt O'Brien
quelle

Antworten:

15

Als Antwort auf den Fragentitel.

Bartletts Test der Sphärizität1Bei der häufig vor der PCA- oder Faktoranalyse durchgeführten Analyse wird geprüft, ob die Daten aus einer multivariaten Normalverteilung mit null Kovarianzen stammen. (Bitte beachten Sie, dass die asymptotische Standardversion des Tests der Abweichung von der multivariaten Normalität in keiner Weise standhält. Man könnte Bootstrapping mit einer nichtaussianischen Wolke verwenden.) Äquivalent ausgedrückt lautet die Nullhypothese, dass die Populationskorrelationsmatrix eine Identitätsmatrix ist oder dass die Kovarianzmatrix diagonal ist.

Stellen Sie sich nun vor, dass die multivariate Wolke perfekt sphärisch ist (dh ihre Kovarianzmatrix ist proportional zur Identitätsmatrix). Dann kann 1) jede beliebige Abmessung den Hauptkomponenten dienen, so dass die PCA-Lösung nicht eindeutig ist; 2) Alle Komponenten haben die gleichen Varianzen (Eigenwerte), so dass PCA nicht dazu beitragen kann, die Daten zu reduzieren.

Stellen Sie sich den zweiten Fall vor, in dem eine multivariate Wolke ein Ellipsoid mit einer Länglichkeit genau entlang der Achsen der Variablen ist (dh ihre Kovarianzmatrix ist diagonal: Alle Werte außer der Diagonale sind Null). Dann ist die durch die PCA-Transformation implizierte Rotation Null; Hauptbestandteile sind die Variablen selbst, die nur neu angeordnet und potentiell vorzeichenbehaftet sind. Dies ist ein triviales Ergebnis: Es wurde kein PCA benötigt, um einige schwache Dimensionen zu verwerfen, um die Daten zu reduzieren.


1Mehrere (meines Wissens mindestens drei) statistische Tests sind nach Bartlett benannt. Hier sprechen wir vom Bartlett-Sphärizitätstest.

ttnphns
quelle
13

Es scheint, dass es zwei Tests gibt, die Bartlett-Test genannt werden . Die von Ihnen angegebene (1937) bestimmt, ob Ihre Stichproben aus Populationen mit gleichen Varianzen stammen. Eine andere scheint zu testen, ob die Korrelationsmatrix für einen Datensatz die Identitätsmatrix ist (1951). Es ist sinnvoller, dass Sie PCA nicht für Daten mit einer Identitätskorrelationsmatrix ausführen, da Sie nur Ihre ursprünglichen Variablen zurückerhalten, da diese bereits nicht korreliert sind. Vergleichen Sie zB

user42628
quelle
2
+1 Dies löst die Verwirrungen besser als die andere Antwort.
HelloWorld