Welche Beziehung besteht zwischen der Analyse unabhängiger Komponenten und der Faktoranalyse?

67

Ich bin neu in der Independent Component Analysis (ICA) und verstehe die Methode nur ansatzweise. Es scheint mir, dass ICA der Faktoranalyse (FA) mit einer Ausnahme ähnlich ist: ICA geht davon aus, dass die beobachteten Zufallsvariablen eine lineare Kombination unabhängiger Komponenten / Faktoren sind, die nicht-gaußsch sind, während das klassische FA-Modell davon ausgeht, dass die beobachteten Zufallsvariablen sind sind eine lineare Kombination von korrelierten Gaußschen Komponenten / Faktoren.

Ist das oben Genaue?

stats_student
quelle
1
Diese Antwort auf eine andere Frage ( PCA findet iterativ Richtungen mit der größten Varianz; aber wie findet man einen ganzen Unterraum mit der größten Varianz? ) Ist einen Blick wert.
Piotr Migdal

Antworten:

72

Bildbeschreibung hier eingeben

FA, PCA und ICA sind alle "verwandt", da alle drei nach Basisvektoren suchen, auf die die Daten projiziert werden, sodass Sie die Einfügekriterien hier maximieren. Stellen Sie sich die Basisvektoren einfach als Verkapselung linearer Kombinationen vor.

Z2NNw=[0.14]y

y=wTZ

y1N

Also, was sind diese Kriterien?

Kriterien zweiter Ordnung:

In PCA finden Sie Basisvektoren, die die Varianz Ihrer Daten am besten erklären. Der erste (dh am höchsten eingestufte) Basisvektor wird einer sein, der am besten zu allen Abweichungen von Ihren Daten passt. Das zweite hat auch dieses Kriterium, muss aber orthogonal zum ersten sein und so weiter und so fort. (Es stellt sich heraus, dass diese Basisvektoren für PCA nichts anderes als die Eigenvektoren der Kovarianzmatrix Ihrer Daten sind.)

In FA gibt es einen Unterschied zu PCA, da FA generativ ist, PCA jedoch nicht. Ich habe FA als "PCA mit Rauschen" beschrieben, wobei die "Rauschen" als "spezifische Faktoren" bezeichnet werden. Trotzdem ist die allgemeine Schlussfolgerung, dass PCA und FA auf Statistiken zweiter Ordnung (Kovarianz) und nichts darüber basieren.

Kriterien höherer Ordnung:

In ICA finden Sie wieder Basisvektoren, aber dieses Mal möchten Sie Basisvektoren, die ein Ergebnis liefern, sodass dieser resultierende Vektor eine der unabhängigen Komponenten der Originaldaten ist. Sie können dies tun, indem Sie den absoluten Wert der normalisierten Kurtosis maximieren - eine Statistik 4. Ordnung. Das heißt, Sie projizieren Ihre Daten auf einen Basisvektor und messen die Kurtosis des Ergebnisses. Sie ändern Ihren Basisvektor ein wenig (normalerweise durch Gradientenanstieg) und messen dann die Kurtosis erneut usw. usw. Schließlich treffen Sie auf einen Basisvektor, der Ihnen ein Ergebnis liefert, das die höchstmögliche Kurtosis aufweist, und dies ist Ihre Unabhängigkeit Komponente.

Das obere Diagramm kann Ihnen bei der Visualisierung helfen. Sie können deutlich sehen, wie die ICA-Vektoren (unabhängig voneinander) den Achsen der Daten entsprechen, während die PCA-Vektoren versuchen, Richtungen zu finden, in denen die Varianz maximiert ist. (Etwas wie resultierend).

Wenn im oberen Diagramm die PCA-Vektoren so aussehen, als ob sie fast den ICA-Vektoren entsprechen, ist das nur ein Zufall. Hier ist ein weiteres Beispiel für unterschiedliche Daten und Mischmatrizen, bei denen sie sehr unterschiedlich sind. ;-)

Bildbeschreibung hier eingeben

Spacey
quelle
2
Anscheinend sind Sie mit beiden Methoden vertraut. Können Sie als kompetente Person antworten, wenn diese Methoden implizieren, dass die Basisvektoren orthogonal sind? Wie kann man die primären oder unabhängigen Komponenten entdecken, die eine Projektion ungleich Null aufeinander haben, so etwas wie zwei Punktwolken, die ungefähr in einem Winkel von 45 Grad zueinander ausgerichtet sind?
Mbaitoff
2
@mbaitoff ICA stellt einen orthogonalen Vektorsatz wieder her, ja. Zweitens, wenn Sie, wie Sie möchten, zwei Signale haben, die eine Projektion ungleich Null aufeinander haben - genau das versucht ICA rückgängig zu machen. Aus diesem Grund sind die von ICA gefundenen endgültigen Basisvektoren orthogonal zueinander. Wenn Sie dann Ihre Daten auf diese beiden neuen Vektoren projizieren, werden sie orthogonal zueinander sein.
Spacey
1
@ Tarantula Ich habe eine Frage zu dem gestellt, wovon ich spreche: stats.stackexchange.com/questions/6575/… , Sie können die Abbildung sehen, i.stack.imgur.com/U6fWb.png . Ich kann nicht verstehen, wie eine orthogonale Basis diese beiden Wolken beschreiben würde. Mir ist klar, dass zwei Vektoren, die die Hauptschwingungsrichtungen beschreiben, nicht orthogonal sind.
Mbaitoff
@mbaitoff Sie haben Ihre Daten von zwei Sensoren abgenommen und sie gegeneinander geplottet. Sie sehen diese beiden Modi, sodass Sie wissen, dass sie zumindest korreliert sind. Dann stellt sich die Frage, wie Sie alle Punkte, die Sie dort haben, so projizieren können, dass sie unabhängig sind. (dh auf einer orthogonalen Basis wie das, was ICA findet). Das ist, was ICA für Sie findet. Ich verstehe nicht, was Sie meinen, wenn Sie sagen "Ich kann nicht verstehen, wie eine orthogonale Basis diese beiden Wolken beschreiben würde." Warum nicht?
Spacey
@Tarantula Oh, jetzt verstehe ich was das bedeutet! Ich dachte, es wäre so, als würde man zwei orthogonale Vektoren auf der ursprünglichen Zeichnung finden, während es in der Tat bedeutet, zwei Vektoren auf der ursprünglichen Zeichnung zu finden, eine Projektion, durch die sie orthogonal (unabhängig) werden.
Mbaitoff
31

Nicht ganz. Die Faktorenanalyse arbeitet mit dem zweiten Moment und hofft wirklich, dass die Daten Gauß'sch sind, damit die Wahrscheinlichkeitsverhältnisse und ähnliches nicht von der Nicht-Normalität beeinflusst werden. ICA ist andererseits von der Idee motiviert, dass Sie, wenn Sie Dinge addieren, aufgrund von CLT etwas Normales erhalten, und hofft wirklich, dass die Daten nicht normal sind, sodass die nicht normalen Komponenten extrahiert werden können Sie. Um die Nicht-Normalität auszunutzen, versucht ICA, den vierten Moment einer linearen Kombination der Eingaben zu maximieren:

maxa:a=11ni[a(xix¯)]4

Wenn überhaupt, sollte ICA mit PCA verglichen werden, wodurch der zweite Moment (Varianz) einer standardisierten Kombination von Eingaben maximiert wird.

StasK
quelle
schöne und knusprige Antwort
Subhash C. Davar
Was ist der 4. Moment hier? PL.EXPLAIN.
Subhash C. Davar
@ subhashc.davar 4. Moment ist Kurtosis - dh der Grad, bis zu dem die Daten entweder schwerer oder schwächer als die Normalverteilung waren. en.wikipedia.org/wiki/Kurtosis
Javadba