Was machen die ersten

12

Bei der Hauptkomponentenanalyse sind die ersten Hauptkomponenten die kkk orthogonalen Richtungen mit der maximalen Varianz. Mit anderen Worten, die erste Hauptkomponente wird als Richtung der maximalen Varianz gewählt, die zweite Hauptkomponente wird als Richtung orthogonal zur ersten mit der maximalen Varianz gewählt und so weiter.

Gibt es eine ähnliche Interpretation für die Faktoranalyse? Ich denke zum Beispiel, dass die ersten Faktoren die Faktoren sind, die die nicht -diagonalen Komponenten der ursprünglichen Korrelationsmatrix am besten erklären (im Sinne eines quadratischen Fehlers zwischen der ursprünglichen Korrelationsmatrix und der durch definierten Korrelationsmatrix) Faktoren). Ist das wahr (oder gibt es etwas Ähnliches, das wir sagen können)?k

raegtin
quelle
Obwohl ich fast allem zustimme, was @NRH in seiner Antwort (+1) geschrieben hat, lautet die kurze Antwort auf Ihre letzte Frage: Ja, das ist genau richtig . Beachten Sie, dass in FA Faktoren auch orthogonal gewählt werden können, wie in PCA. Der Unterschied besteht nur in der Reproduktion der gesamten Korrelationsmatrix (PCA) gegenüber der Reproduktion nur ihres außerdiagonalen Teils (FA). Siehe längere Diskussion meiner Antworten in Bedingungen für die Ähnlichkeit von PCA und Faktorenanalyse und Gibt es einen guten Grund zu verwenden PCA statt EFA?
Amöbe sagt Reinstate Monica
Ich bin mir nicht sicher, ob FA wirklich "die (Summe der) quadrierten partiellen Kovarianzen minimiert", weil es ein Rotations- / Extraktionskriterium namens "MinRes" gibt, dessen Begründung genau dies ist. Warum sollte man ihm dann einen unverwechselbaren Namen geben? Vielleicht erhalten die Standardroutinen zum Finden der FA-Lösung mathematisch identische Ergebnisse, wenn die Anzahl der k Faktoren die Kovarianzen perfekt reproduziert - aber da k eine Schätzung ist, kann es sein, dass im Fall von Unvollkommenheit / Unterschätzung die FA-Lösung dies nicht ist identisch mit der MinRes-Lösung. Nun, ich sage: könnte sein - ich würde gerne eine explizite Aussage sehen.
Gottfried Helms

Antworten:

7

PCA ist in erster Linie eine Datenreduktionstechnik, bei der das Ziel darin besteht, eine Projektion von Daten auf einen Raum mit niedrigeren Dimensionen zu erhalten. Zwei äquivalente Ziele bestehen darin, entweder die Varianz iterativ zu maximieren oder den Rekonstruktionsfehler zu minimieren. Dies wird in einigen Details in den Antworten auf diese vorherige Frage herausgearbeitet .

Im Gegensatz dazu ist in erster Linie ein Faktoranalyse generatives Modell eines - dimensionalen Datenvektor X von selbst , dass X = A S + ε wo S das ist q dimensionale Vektor von latenten Faktoren, A ist p × k mit k < p , und ε ist ein Vektor der unkorrelierten Fehler. Die A- Matrix ist die Matrix der Faktorladungen . Dies ergibt eine spezielle Parametrisierung der Kovarianzmatrix als Σ = A A T + DpX

X=AS+ϵ
SqAp×kk<pϵA
Σ=AAT+D
Das Problem bei diesem Modell ist, dass es überparametrisiert ist. Dasselbe Modell wird erhalten, wenn für eine beliebige k × k- Orthogonalmatrix R durch A R ersetzt wird , was bedeutet, dass die Faktoren selbst nicht eindeutig sind. Es gibt verschiedene Vorschläge zur Lösung dieses Problems, aber es gibt keine einzige Lösung, die Ihnen Faktoren für die Art der Interpretation vorgibt, nach der Sie fragen. Eine beliebte Wahl ist die Varimax- Rotation. Das verwendete Kriterium bestimmt jedoch nur die Rotation. Der von A aufgespannte Spaltenraum ändert sich nicht, und da dies Teil der Parametrisierung ist, wird er durch die Methode bestimmt, die zur Schätzung von Σ verwendet wirdAARk×kRAΣ - Mit maximaler Wahrscheinlichkeit in einem Gaußschen Modell, sagen wir.

Um die Frage zu beantworten, werden die ausgewählten Faktoren nicht automatisch anhand eines Faktorenanalysemodells angegeben, sodass es keine einzelne Interpretation der ersten Faktoren gibt. Sie müssen die Methode zur Schätzung (des Spaltenraums von) A und die Methode zur Auswahl der Rotation angeben . Wenn D = σ 2 I (alle Fehler haben die gleiche Varianz), ist die MLE-Lösung für den Spaltenraum von A der Raum, der durch das führende q aufgespannt wirdkAD=σ2IAq Hauptkomponentenvektoren aufgespannt wird, die durch eine Singularwertzerlegung gefunden werden können. Es ist natürlich möglich, diese Hauptkomponentenvektoren nicht zu drehen und als Faktoren zu melden.

Bearbeiten: Um zu betonen, wie ich es sehe, ist das Faktoranalysemodell ein Modell der Kovarianzmatrix als eine Rang- Matrix plus eine Diagonalmatrix. Ziel des Modells ist es daher, die Kovarianz mit einer solchen Struktur auf der Kovarianzmatrix am besten zu erklären . Die Interpretation ist, dass eine solche Struktur auf der Kovarianzmatrix mit einem nicht beobachteten k- dimensionalen Faktor kompatibel ist. Leider können die Faktoren nicht eindeutig wiederhergestellt werden, und wie sie innerhalb des Satzes möglicher Faktoren ausgewählt werden können, bezieht sich in keiner Weise auf die Erklärung der Daten. Wie bei PCA kann man die Daten im Voraus standardisieren und so ein Modell anpassen, das versucht, die Korrelationsmatrix als Rang k plus eine Diagonalmatrix zu erklären . kkk

NRH
quelle
1
Ja, ich verstehe, dass es keine eindeutige Auswahl an k Faktoren gibt (da wir sie drehen und das gleiche Modell erhalten können). Aber ist irgendeine Auswahl von k Faktoren, die durch Faktorenanalyse ausgewählt wurden, eine Art "maximale Erklärung der Korrelation"?
Raegtin
1
@raegtin, ich habe die Antwort bearbeitet, um meinen Standpunkt zu erläutern, dass dies ein Modell der Kovarianzmatrix ist. Jegliche Auswahl von Faktoren, die durch Rotationen erhalten werden, ist meines Erachtens gleichermaßen gut oder schlecht für die Erklärung der Kovarianzen in den Daten, da sie dieselbe Kovarianzmatrix erzeugen.
NRH
1
Vielen Dank für das Update, dies ist eine großartige Erklärung für FA! Wenn Sie also sagen, "das Ziel des Modells ist es, die Kovarianz am besten zu erklären", meinen Sie dann, dass die k-Faktoren die Menge der erklärten Kovarianz wirklich maximieren?
Raegtin
1
@raegtin, ja, ich betrachte das Modell als Modell der Kovarianzmatrix, und wenn Sie das Modell schätzen, ist es fair zu sagen, dass Sie die Menge der erklärten Kovarianz maximieren.
NRH
@raegtin und NRH (+1 übrigens): Nur zur Verdeutlichung. Die obigen zwei Kommentare sind richtig, wenn wir unter "Kovarianz" den "nicht diagonalen Teil der Kovarianzmatrix" verstehen.
Amöbe sagt Reinstate Monica
3

@RAEGTIN, ich glaube, dass du richtig denkst. Nach der Extraktion und der vorherigen Rotation ist jeder nachfolgende Faktor für immer weniger Kovariation / Korrelation verantwortlich, ebenso wie jede nachfolgende Komponente immer weniger Varianz ausmacht: In beiden Fällen gehen die Spalten einer Ladematrix A in die Fallreihenfolge von Summe der quadrierten Elemente (Ladungen) in ihnen. Die Belastung ist die Korrelation zwischen Faktor und Variable. daher kann man sagen, dass der 1. Faktor den größten Teil des "gesamten" Quadrats r in der R- Matrix erklärt, der 2. Faktor hier der zweite usw. Der Unterschied zwischen FA und PCA bei der Vorhersage von Korrelationen durch Belastungen ist jedoch wie folgt: FA wird "kalibriert", um R wiederherzustellenganz fein mit nur m extrahierten Faktoren (m Faktoren <p Variablen), während PCA unhöflich darin ist, es durch m Komponenten wiederherzustellen, - es benötigt alle p Komponenten, um R ohne Fehler wiederherzustellen .

PS Nur um hinzuzufügen. In FA "besteht" ein Ladewert aus sauberer Kommunalität (ein Teil der Varianz, der für die Korrelation verantwortlich ist), während in PCA eine Ladung eine Mischung aus Kommunalität und Einheitlichkeit der Variablen ist und daher die Variabilität erfasst.

ttnphns
quelle