Ich bin neu in der Independent Component Analysis (ICA) und verstehe die Methode nur ansatzweise. Es scheint mir, dass ICA der Faktoranalyse (FA) mit einer Ausnahme ähnlich ist: ICA geht davon aus, dass die beobachteten Zufallsvariablen eine lineare Kombination unabhängiger Komponenten / Faktoren sind, die nicht-gaußsch sind, während das klassische FA-Modell davon ausgeht, dass die beobachteten Zufallsvariablen sind sind eine lineare Kombination von korrelierten Gaußschen Komponenten / Faktoren.
Ist das oben Genaue?
multivariate-analysis
factor-analysis
ica
stats_student
quelle
quelle
Antworten:
FA, PCA und ICA sind alle "verwandt", da alle drei nach Basisvektoren suchen, auf die die Daten projiziert werden, sodass Sie die Einfügekriterien hier maximieren. Stellen Sie sich die Basisvektoren einfach als Verkapselung linearer Kombinationen vor.
Also, was sind diese Kriterien?
Kriterien zweiter Ordnung:
In PCA finden Sie Basisvektoren, die die Varianz Ihrer Daten am besten erklären. Der erste (dh am höchsten eingestufte) Basisvektor wird einer sein, der am besten zu allen Abweichungen von Ihren Daten passt. Das zweite hat auch dieses Kriterium, muss aber orthogonal zum ersten sein und so weiter und so fort. (Es stellt sich heraus, dass diese Basisvektoren für PCA nichts anderes als die Eigenvektoren der Kovarianzmatrix Ihrer Daten sind.)
In FA gibt es einen Unterschied zu PCA, da FA generativ ist, PCA jedoch nicht. Ich habe FA als "PCA mit Rauschen" beschrieben, wobei die "Rauschen" als "spezifische Faktoren" bezeichnet werden. Trotzdem ist die allgemeine Schlussfolgerung, dass PCA und FA auf Statistiken zweiter Ordnung (Kovarianz) und nichts darüber basieren.
Kriterien höherer Ordnung:
In ICA finden Sie wieder Basisvektoren, aber dieses Mal möchten Sie Basisvektoren, die ein Ergebnis liefern, sodass dieser resultierende Vektor eine der unabhängigen Komponenten der Originaldaten ist. Sie können dies tun, indem Sie den absoluten Wert der normalisierten Kurtosis maximieren - eine Statistik 4. Ordnung. Das heißt, Sie projizieren Ihre Daten auf einen Basisvektor und messen die Kurtosis des Ergebnisses. Sie ändern Ihren Basisvektor ein wenig (normalerweise durch Gradientenanstieg) und messen dann die Kurtosis erneut usw. usw. Schließlich treffen Sie auf einen Basisvektor, der Ihnen ein Ergebnis liefert, das die höchstmögliche Kurtosis aufweist, und dies ist Ihre Unabhängigkeit Komponente.
Das obere Diagramm kann Ihnen bei der Visualisierung helfen. Sie können deutlich sehen, wie die ICA-Vektoren (unabhängig voneinander) den Achsen der Daten entsprechen, während die PCA-Vektoren versuchen, Richtungen zu finden, in denen die Varianz maximiert ist. (Etwas wie resultierend).
Wenn im oberen Diagramm die PCA-Vektoren so aussehen, als ob sie fast den ICA-Vektoren entsprechen, ist das nur ein Zufall. Hier ist ein weiteres Beispiel für unterschiedliche Daten und Mischmatrizen, bei denen sie sehr unterschiedlich sind. ;-)
quelle
Nicht ganz. Die Faktorenanalyse arbeitet mit dem zweiten Moment und hofft wirklich, dass die Daten Gauß'sch sind, damit die Wahrscheinlichkeitsverhältnisse und ähnliches nicht von der Nicht-Normalität beeinflusst werden. ICA ist andererseits von der Idee motiviert, dass Sie, wenn Sie Dinge addieren, aufgrund von CLT etwas Normales erhalten, und hofft wirklich, dass die Daten nicht normal sind, sodass die nicht normalen Komponenten extrahiert werden können Sie. Um die Nicht-Normalität auszunutzen, versucht ICA, den vierten Moment einer linearen Kombination der Eingaben zu maximieren:
Wenn überhaupt, sollte ICA mit PCA verglichen werden, wodurch der zweite Moment (Varianz) einer standardisierten Kombination von Eingaben maximiert wird.
quelle