Einige wissenschaftliche Arbeiten berichten über Ergebnisse der parallelen Analyse der Hauptachsenfaktoranalyse in einer Weise, die nicht mit meinem Verständnis der Methodik vereinbar ist. Was vermisse ich? Bin ich falsch oder sind sie.
Beispiel:
- Daten: Die Leistung von 200 einzelnen Menschen wurde bei 10 Aufgaben beobachtet. Für jede Person und jede Aufgabe gibt es eine Leistungsbewertung. Die Frage ist nun, wie viele Faktoren die Ursache für die Leistung bei den 10 Aufgaben sind.
- Methode: Parallele Analyse zur Bestimmung der Anzahl der Faktoren, die in einer Hauptachsenfaktoranalyse beibehalten werden sollen.
- Beispiel für das gemeldete Ergebnis: „Die parallele Analyse legt nahe, dass nur Faktoren mit einem Eigenwert von 2,21 oder mehr beibehalten werden sollten.“
Das ist doch Unsinn, oder?
Aus dem Originalpapier von Horn (1965) und Tutorials wie Hayton et al. (2004) Ich verstehe, dass die parallele Analyse eine Anpassung des Kaiser-Kriteriums (Eigenwert> 1) ist, die auf zufälligen Daten basiert. Die Anpassung besteht jedoch nicht darin, den Grenzwert 1 durch eine andere feste Zahl zu ersetzen, sondern einen individuellen Grenzwert für jeden Faktor (und abhängig von der Größe des Datensatzes, dh 200 mal 10 Bewertungen). Betrachtet man die Beispiele von Horn (1965) und Hayton et al. (2004) und die Ausgabe der R - Funktionen fa.parallel im Psych Paket- und parallel in den nFactorsIch sehe, dass die parallele Analyse eine abfallende Kurve im Scree-Diagramm erzeugt, um sie mit den Eigenwerten der realen Daten zu vergleichen. Eher wie „Behalte den ersten Faktor bei, wenn sein Eigenwert> 2,21 ist; behalten Sie zusätzlich die Sekunde bei, wenn ihr Eigenwert> 1,65 ist; … ”.
Gibt es eine vernünftige Einstellung, eine Denkrichtung oder eine Methode, die „die parallele Analyse legt nahe, dass nur Faktoren mit einem Eigenwert von 2,21 oder mehr beibehalten werden sollten“ korrekt ist?
Verweise:
Hayton, JC, Allen, DG, Scarpello, V. (2004). Entscheidungen zur Beibehaltung von Faktoren in der explorativen Faktoranalyse: Ein Tutorial zur parallelen Analyse. Organizational Research Methods, 7 (2): 191 & ndash; 205.
Horn, JL (1965). Eine Begründung und ein Test für die Anzahl der Faktoren in der Faktoranalyse. Psychometrika, 30 (2): 179 & ndash; 185.
paran
für R (auf CRAN) und für Stata (innerhalb des Stata-Typs findit paran).Antworten:
Es gibt zwei äquivalente Möglichkeiten, um das Kriterium der parallelen Analyse auszudrücken. Aber zuerst muss ich mich um ein in der Literatur vorherrschendes Missverständnis kümmern.
Das Missverständnis
Die sogenannte Kaiser-Regel (Kaiser mochte die Regel nicht wirklich, wenn Sie seine Arbeit von 1960 lesen) Eigenwerte größer als eins werden für die Hauptkomponentenanalyse beibehalten . Mit Hilfe der sogenannten Kaiser Regel Eigenwert größer als Null beibehalten wird für Hauptfaktorenanalyse / common Faktor anlaysis . Diese Verwirrung ist im Laufe der Jahre entstanden, weil mehrere Autoren die Bezeichnung "Faktoranalyse" zur Beschreibung der "Hauptkomponentenanalyse" schlampig verwendet haben, wenn sie nicht dasselbe sind.
Weitere Informationen zur Berechnung finden Sie unter Sanfte Klärung der Anwendung der Horn-Parallelanalyse auf die Hauptkomponentenanalyse im Vergleich zur Faktoranalyse.
Aufbewahrungskriterienp λ1, … , Λp n p λ¯r1, … , Λ¯rp
für die parallele Analyse Für die Hauptkomponentenanalyse basierend auf der Korrelationsmatrix der Anzahl von Variablen haben Sie mehrere Größen. Zuerst haben Sie die beobachteten Eigenwerte aus einer Eigenzusammensetzung der Korrelationsmatrix Ihrer Daten, . Zweitens haben Sie die mittleren Eigenwerte aus Eigendekompositionen der Korrelationsmatrizen "einer großen Anzahl" zufälliger (unkorrelierter) Datensätze mit demselben und wie Ihr eigenes, .
Horn formuliert seine Beispiele auch in Bezug auf "Sampling Bias" und schätzt diesen Bias für den Eigenwert (für die Hauptkomponentenanalyse) als . Diese Vorspannung kann dann verwendet werden, um beobachtete Eigenwerte folgendermaßen anzupassen:qth εq= λ¯rq- 1 λadjq= λq- εq
Bei diesen Größen können Sie das Aufbewahrungskriterium für den beobachteten Eigenwert einer Hauptkomponenten-Parallelanalyse auf zwei mathematisch äquivalente Arten ausdrücken :qth
Was ist mit der Hauptfaktoranalyse / Common-Factor-Analyse? Hier müssen wir bedenken , daß die Vorspannung ist der entsprechende Mittelwert Eigenwert: (minus Null, da die Kaiser-Regel für die Eigenzerlegung der Korrelationsmatrix mit der durch die Kommunalitäten ersetzten Diagonale darin besteht, Eigenwerte größer als Null beizubehalten). Deshalb hier .εq=λ¯rq−0=λ¯rq λadjq=λq−λ¯rq
Daher sollten die Aufbewahrungskriterien für die Hauptfaktoranalyse / Common-Factor-Analyse wie folgt ausgedrückt werden:
Beachten Sie, dass die zweite Form des Ausdrucks des Aufbewahrungskriteriums sowohl für die Hauptkomponentenanalyse als auch für die Analyse gemeinsamer Faktoren konsistent ist (dh weil sich die Definition von in Abhängigkeit von Komponenten / Faktoren ändert, aber die Die zweite Form des Aufbewahrungskriteriums wird nicht in Form von ausgedrückt .λadjq λadjq
eine weitere Sache ...
Sowohl die Hauptkomponentenanalyse als auch die Hauptfaktoranalyse / Common-Factor-Analyse können auf der Kovarianzmatrix und nicht auf der Korrelationsmatrix basieren . Da dies die Annahmen / Definitionen über die Gesamtvarianz und die gemeinsame Varianz ändert, sollten nur die zweiten Formen des Aufbewahrungskriteriums verwendet werden, wenn die Analyse auf der Kovarianzmatrix basiert.
quelle
Ja, es ist möglich, einen Wert von 2,21 zu haben, wenn die Stichprobengröße nicht unendlich groß ist (oder groß genug ...). Dies ist in der Tat die Motivation für die Entwicklung der Parallelanalyse als Erweiterung der Eigenwert-1-Regel.
Ich zitiere Valle 1999 zu dieser Antwort und habe den Teil kursiv geschrieben, der direkt zu Ihrer Frage spricht.
Auswahl der Anzahl der Hauptkomponenten: Die Varianz des Rekonstruktionsfehlerkriteriums im Vergleich zu anderen Methoden † Sergio Valle, Weihua Li und S. Joe Qin * Industrial & Engineering Chemistry Research 1999 38 (11), 4389-4401
quelle
Ihr Beispiel ist sicherlich nicht klar, aber es könnte auch kein Unsinn sein. Betrachten Sie kurz die Möglichkeit, dass das Beispiel seine Entscheidungsregel auf dem Eigenwert des ersten simulierten Faktors basiert, der größer als der reale Faktor derselben Faktornummer ist. Hier ist ein weiteres Beispiel in r :
Die Daten sind zufällig und es gibt nur drei Variablen, sodass ein zweiter Faktor sicherlich keinen Sinn ergibt, und das zeigt die parallele Analyse. * Die Ergebnisse bestätigen auch, was @Alexis zu " The Misunderstanding " gesagt hat .
Angenommen, ich interpretiere diese Analyse wie folgt: „Die parallele Analyse legt nahe, dass nur Faktoren [ nichtKomponenten] mit einem Eigenwert von 1,2E-6 oder mehr sollten beibehalten werden. “ Dies ist in gewissem Maße sinnvoll, da dies der Wert des ersten simulierten Eigenwerts ist, der größer als der "reale" Eigenwert ist, und alle Eigenwerte danach notwendigerweise abnehmen. Es ist eine umständliche Art, dieses Ergebnis zu melden, aber es stimmt zumindest mit der Überlegung überein, dass man Faktoren (oder Komponenten) mit Eigenwerten, die nicht viel größer sind als die entsprechenden Eigenwerte aus simulierten, nicht korrelierten Daten, sehr skeptisch betrachten sollte. Dies sollte konsistent nach der ersten Instanz auf dem Geröllplot der Fall sein, bei der der simulierte Eigenwert den entsprechenden realen Eigenwert überschreitet. Im obigen Beispiel ist der simulierte dritte Faktor sehr geringfügig kleiner als der "echte" dritte Faktor.
* In diesem Fall sagt R: "Die parallele Analyse legt nahe, dass die Anzahl der Faktoren = 1 und die Anzahl der Komponenten = 2 ist", aber hoffentlich wissen die meisten von uns, dass sie unserer Software nicht vertrauen können, um unsere Diagramme für uns zu interpretieren ... ich definitiv würde die zweite Komponente nicht beibehalten, nur weil sie unendlich größer als die zweite simulierte Komponente ist.
quelle