Was sind die Annahmen der Faktoranalyse?

11

Ich möchte überprüfen, ob ich die [klassische, lineare] Faktoranalyse (FA) wirklich verstanden habe , insbesondere Annahmen , die vor (und möglicherweise nach) FA getroffen wurden.

Einige der Daten sollten anfänglich korreliert sein, und es besteht eine mögliche lineare Beziehung zwischen ihnen. Nach der Faktorenanalyse werden die Daten normal verteilt (bivariate Verteilung für jedes Paar) und es gibt keine Korrelation zwischen Faktoren (gemeinsam und spezifisch) und keine Korrelation zwischen Variablen eines Faktors und Variablen anderer Faktoren.

Ist es richtig?

Sihem
quelle

Antworten:

12

Eingabedatenannahmen für lineares FA (Ich spreche hier nicht über interne Annahmen / Eigenschaften des FA- Modells oder über die Überprüfung der Anpassungsqualität von Ergebnissen ).

  1. Eingabevariablen skalieren (Intervall oder Verhältnis) . Das heißt, die Elemente sind entweder kontinuierliche Messungen oder werden als kontinuierlich konzipiert, während sie auf einer diskreten quantitativen Skala gemessen werden. Keine Ordnungsdaten in linearem FA ( gelesen ). Binärdaten sollten ebenfalls vermieden werden (siehe dies , dies ). Die lineare FA geht davon aus, dass latente gemeinsame und einzigartige Faktoren kontinuierlich sind . Daher sollten beobachtete Variablen, die sie laden, auch kontinuierlich sein.
  2. Korrelationen sind linear . Lineare FA kann basierend auf einer beliebigen Assoziationsmatrix vom SSCP-Typ durchgeführt werden: Pearson-Korrelation, Kovarianz, Cosinus usw. (obwohl einige Methoden / Implementierungen möglicherweise nur auf Pearson-Korrelationen beschränkt sind). Beachten Sie, dass dies alles Produkte der linearen Algebra sind. Obwohl die Größe eines Kovarianzkoeffizienten mehr als nur die Linearität in Bezug widerspiegelt , ist die Modellierung in linearem FA linear, selbst wenn Kovarianzen verwendet werden: Variablen sind lineare Kombinationen von Faktorenund somit ist Linearität in den resultierenden Assoziationen impliziert. Wenn Sie sehen / denken, dass nichtlineare Assoziationen vorherrschen - machen Sie keine lineare FA oder versuchen Sie, sie zuerst durch einige Transformationen der Daten zu linearisieren. Und stützen Sie die lineare FA nicht auf Spearman- oder Kendall-Korrelationen (Punkt 4 dort ).
  3. Keine Ausreißer - das ist wie bei jeder nicht robusten Methode. Die Pearson-Korrelation und ähnliche SSCP-Assoziationen reagieren empfindlich auf Ausreißer.
  4. Es liegen relativ hohe Korrelationen vor . FA ist die Analyse der Korrelation - was nützt es, wenn alle oder fast alle Korrelationen schwach sind? - keine Verwendung. Was eine "relativ hohe Korrelation" ist, hängt jedoch vom Studienbereich ab. Es gibt auch eine interessante und vielfältige Frage, ob sehr hohe Korrelationen akzeptiert werden sollten (deren Auswirkung auf die PCA wird hier beispielsweise diskutiert ). Um statistisch zu testen, ob die Daten nicht unkorreliert sind, kann der Bartlett-Test der Sphärizität verwendet werden.
  5. Teilkorrelationen sind schwach und der Faktor kann ausreichend definiert werden . FA geht davon aus, dass Faktoren allgemeiner sind als nur das Laden von Paaren korrelierter Elemente. In der Tat gibt es sogar einen Rat, keine Faktoren zu extrahieren, die anständig weniger als 3 Elemente in explotatorische FA laden; und in der bestätigenden FA ist nur 3+ eine garantiert identifizierte Struktur. Ein technisches Extraktionsproblem, das als Heywood-Fall bezeichnet wird, hat als einen der Gründe für die Situation mit zu wenigen Faktoren. Kaiser-Meyer-Olkin ( KMO ) "Stichproben-Angemessenheitsmaß" schätzt für Sie, wie schwach Teilkorrelationen in den Daten im Verhältnis zu den vollständigen Korrelationen sind; Sie kann für jedes Element und für die gesamte Korrelationsmatrix berechnet werden.
  6. p1n observations > p variablesn>>p
  7. Verteilung . Im Allgemeinen erfordert die lineare FA keine Normalität der Eingabedaten. Mäßig verzerrte Verteilungen sind akzeptabel. Bimodalität ist keine Kontraindikation. Normalität wird zwar für eindeutige Faktoren im Modell angenommen (sie dienen als Regressionsfehler) - nicht jedoch für die gemeinsamen Faktoren und die Eingabedaten ( siehe auch). Dennoch kann eine multivariate Normalität der Daten als zusätzliche Annahme durch einige Extraktionsmethoden (nämlich maximale Wahrscheinlichkeit) und durch die Durchführung einiger asymptotischer Tests erforderlich sein .

1

ttnphns
quelle
Könnten Sie diesen Beitrag lesen , es schien wenig anders.
WhiteGirl
Wenn Binary data should also be avoidedja, für welche andere Methode zur Faktorenanalyse können wir noch vorgehen binary data?
Kittygirl
liebe ttnphns; Ich stelle fest, dass Sie nicht erwähnen, dass die Daten als normal angenommen werden und andere Online-Daten darauf hinweisen, dass keine Normalität erforderlich ist. Meine Frage ist, ob die latenten Variablen als normal angenommen werden und die Beobachtungen als gewichtete Summe der Faktoren modelliert werden. Bedeutet dies dann nicht eine Normalverteilung auf die Beobachtungen? (Es tut mir leid, ich bin mir sicher, dass dies eine dumme Frage ist.)
user2957945
@ user2957945, Absatz 7 sagt über Normalität. Die Normalitätsannahme ist für einige Methoden der Faktorextraktion und für die Durchführung einiger statistischer Tests erforderlich, die die Faktoranalyse fakultativ begleiten. Zu Ihrer Frage: Ja, wenn Faktoren normal verteilt sind und auch Fehler normal, bedeutet dies, dass auch Manifestvariablen normal sind.
ttnphns
ah, danke @ttnphns; Es tut mir leid, Sie zu stören - ich weiß nicht genau, wie ich das verpasst habe. Schätze deine Hilfe.
user2957945
9

In den meisten Fällen wird die Faktoranalyse ohne statistische Tests an sich durchgeführt. Es ist viel subjektiver und interpretativer als Methoden wie Regression, Strukturgleichungsmodellierung und so weiter. Und im Allgemeinen sind es Inferenztests, die mit Annahmen einhergehen: Damit p- Werte und Konfidenzintervalle korrekt sind, müssen diese Annahmen erfüllt sein.

Wenn nun die Methode zur Auswahl der Anzahl der Faktoren als Maximum-Likelihood-Methode festgelegt ist, wird davon ausgegangen, dass die in die Faktoranalyse eingegebenen Variablen Normalverteilungen aufweisen.

Dass die Eingabevariablen Korrelationen ungleich Null aufweisen, ist insofern eine Art Annahme, dass die Ergebnisse der Faktoranalyse (wahrscheinlich) unbrauchbar sind, wenn sie nicht wahr sind: Kein Faktor wird als latente Variable hinter einem Satz von Eingabevariablen auftreten.

Soweit es "keine Korrelation zwischen Faktoren (allgemein und spezifisch) und keine Korrelation zwischen Variablen eines Faktors und Variablen anderer Faktoren" gibt, sind dies keine universellen Annahmen, die Faktoranalytiker treffen, obwohl sie manchmal entweder eine Bedingung (oder eine Annäherung) sind davon) könnte wünschenswert sein. Letzteres ist, wenn es gilt, als "einfache Struktur" bekannt.

Es gibt eine andere Bedingung, die manchmal als "Annahme" behandelt wird: dass die Korrelationen nullter Ordnung (Vanille) zwischen Eingabevariablen nicht durch große Teilkorrelationen überschwemmt werden. Kurz gesagt bedeutet dies, dass Beziehungen für einige Paarungen stark und für andere schwach sein sollten. Andernfalls sind die Ergebnisse "schlammig". Dies hängt mit der Wünschbarkeit einer einfachen Struktur zusammen und kann tatsächlich unter Verwendung der Kaiser-Meyer-Olkin-Statistik oder des KMO bewertet (obwohl nicht formal "getestet") werden. KMO-Werte in der Nähe von 0,8 oder 0,9 werden normalerweise als sehr vielversprechend für informative Faktorenanalyseergebnisse angesehen, während KMOs in der Nähe von 0,5 oder 0,6 viel weniger vielversprechend sind und Werte unter 0,5 einen Analysten möglicherweise dazu veranlassen, seine Strategie zu überdenken.

rolando2
quelle
Während ich lese, beginnt diese Faktorenanalyse mit einer gewissen Korrelation mit Variablen und wir versuchen, diese Korrelation immer deutlicher zu machen
Sihem
1
Nach Anwendung der Faktoranalyse, wenn wir orthogonale Rotation verwendet haben, werden wir sicher sein, dass es keine Korrelation zwischen Faktoren gibt
Sihem
2

Annahmen, die der exploratorischen Faktoranalyse zugrunde liegen, sind:
• Intervall- oder Verhältnisniveau der Messung
• Zufallsstichprobe
• Beziehung zwischen beobachteten Variablen ist linear
• Eine Normalverteilung (jede beobachtete Variable)
• Eine bivariate Normalverteilung (jedes Paar beobachteter Variablen)
• Multivariate Normalität
Oben ab die SAS-Datei

Chris Kelly
quelle