Im Gegensatz zur Hauptkomponentenanalyse sind die Lösungen für Faktoranalysemodelle nicht unbedingt verschachtelt. Das heißt, die Belastungen (zum Beispiel) für den ersten Faktor sind nicht unbedingt identisch, wenn nur der erste Faktor extrahiert wird, im Vergleich zu den ersten beiden Faktoren.
Stellen Sie sich vor diesem Hintergrund einen Fall vor, in dem Sie eine Reihe von Manifestvariablen haben, die stark korreliert sind und (nach theoretischer Kenntnis ihres Inhalts) von einem einzigen Faktor bestimmt werden sollten. Stellen Sie sich vor, dass explorative Faktoranalysen (nach der von Ihnen bevorzugten Metrik: Parallelanalyse, Geröllplot, Eigenwerte> 1 usw.) stark darauf hindeuten, dass es Faktoren gibt: einen großen Primärfaktor und einen kleinen Sekundärfaktor. Sie sind daran interessiert, die Manifestvariablen und die Faktorlösung zu verwenden, um die Werte der Teilnehmer für den ersten Faktor zu schätzen (dh Faktorwerte zu erhalten). In diesem Szenario wäre es besser:
- Passen Sie ein Faktormodell an, um nur 1 zu extrahieren Faktor und Faktorwerte (usw.) zu erhalten, oder
- Passen Sie ein zu extrahierendes Faktormodell an beide Faktoren , Faktorwerte für die Faktoren zu erhalten, aber die Werte für den zweiten Faktor wegwerfen / ignorieren?
Für welche ist die bessere Praxis, warum? Gibt es Forschungsergebnisse zu diesem Thema?
quelle
Is is always better to extract more factors when they exist?
ist nicht sehr klar. Es ist immer besser, so viele zu extrahieren, wie es gibt. Unter- oder Überanpassung verzerren beide die "wahre" latente Struktur aufgrund der multivariaten und nicht verschachtelten Natur der von Ihnen erwähnten Analyse. Das Problem ist, dass wir nicht genau wissen, wie viele Faktoren in unseren Daten enthalten sind. Und ob diese Daten so viele haben wie die Bevölkerung.Antworten:
Das Thema, auf das Sie anspielen, ist das Thema „ungefähre Eindimensionalität“ beim Bau psychologischer Testinstrumente, das in den 80er Jahren in der Lituratur viel diskutiert wurde. Die Inspiration bestand in der Vergangenheit darin, dass die Praktiker traditionelle IRT-Modelle (Item Response Theory) für ihre Artikel verwenden wollten. Zu dieser Zeit beschränkten sich diese IRT-Modelle ausschließlich auf die Messung eindimensionaler Merkmale. Daher wurde gehofft, dass Test-Multidimensionalität ein Ärgernis ist, das (hoffentlich) vermieden oder ignoriert werden kann. Dies führte auch zur Entwicklung der parallelen Analysetechniken in der Faktoranalyse (Drasgow und Parsons, 1983) und der DETECT-Methoden.
Das Ignorieren zusätzlicher Merkmale / Faktoren, abgesehen davon, dass offensichtlich das falsche Modell an die Daten angepasst wird (dh das Ignorieren von Informationen über mögliche Modellfehlanpassungen; obwohl dies natürlich trivial sein kann), hat zur Folge, dass die Schätzungen der Merkmale des dominanten Faktors verzerrt werden und daher weniger effizient. Diese Schlussfolgerungen hängen natürlich davon ab, wie die Eigenschaften der zusätzlichen Merkmale (z. B. korrelieren sie mit der primären Dimension, haben sie starke Belastungen, wie viele Querbelastungen gibt es usw.), aber das allgemeine Thema sind sekundäre Schätzungen für das Erhalten von primären Merkmalbewertungen wird weniger effektiv sein. Den technischen Bericht finden Sie hier einen Vergleich zwischen einem falsch angepassten eindimensionalen Modell und einem Bi-Faktor-Modell. Der technische Bericht scheint genau das zu sein, wonach Sie suchen.
Aus praktischer Sicht kann die Verwendung von Informationskriterien bei der Auswahl des optimalsten Modells sowie der Modellanpassungsstatistik im Allgemeinen (RMSEA, CFI usw.) hilfreich sein, da sich die Konsequenzen des Ignorierens mehrdimensionaler Informationen negativ auf die Gesamtanpassung an die Daten auswirken . Die Gesamtmodellanpassung ist jedoch nur ein Hinweis auf die Verwendung eines ungeeigneten Modells für die vorliegenden Daten. Es ist durchaus möglich, dass falsche Funktionsformen wie Nichtlinearität oder mangelnde Monotonie verwendet werden. Daher sollten immer auch die jeweiligen Elemente / Variablen überprüft werden.
Siehe auch :
Drasgow, F. und Parsons, CK (1983). Anwendung eindimensionaler Modelle der Item-Response-Theorie auf mehrdimensionale Daten. Applied Psychological Measurement, 7 (2), 189-199.
Drasgow, F. & Lissak, RI (1983). Modifizierte parallele Analyse: Ein Verfahren zur Untersuchung der Latentdimensionalität dichotom bewerteter Item-Antworten. Journal of Applied Psychology, 68, 363-373.
Levent Kirisci, Tse-chi Hsu und Lifa Yu (2001). Robustheit von Programmen zur Schätzung von Elementparametern gegenüber Annahmen von Eindimensionalität und Normalität. Applied Psychological Measurement, 25 (2), 146-162.
quelle
Wenn Sie den zweiten Faktor wirklich nicht verwenden möchten, sollten Sie nur ein Ein-Faktor-Modell verwenden. Ich bin jedoch verwirrt über Ihre Bemerkung, dass sich die Belastungen für den ersten Faktor ändern, wenn Sie einen zweiten Faktor verwenden.
Als nächstes zur Erklärung der Auswirkungen von Rotationen. Ich kann nicht gut zeichnen, deshalb werde ich versuchen, Sie mit Worten zu überzeugen. Ich gehe davon aus, dass Ihre Daten (ungefähr) normal sind, so dass die Faktorwerte auch ungefähr normal sind. Wenn Sie einen Faktor extrahieren, erhalten Sie eine eindimensionale Normalverteilung. Wenn Sie zwei Faktoren extrahieren, erhalten Sie eine bivariate Normalverteilung.
Die Dichte einer bivariaten Verteilung sieht ungefähr wie ein Hut aus, aber die genaue Form hängt sowohl von der Skalierung als auch vom Korrelationskoeffizienten ab. Nehmen wir also an, dass die beiden Komponenten jeweils eine Einheitsvarianz aufweisen. Im unkorrelierten Fall erhalten Sie einen schönen Sombrero mit ebenen Kurven, die wie Kreise aussehen. Ein Bild ist hier . Die Korrelation "zerquetscht" den Hut, so dass er eher wie ein Napoleon-Hut aussieht .
Nehmen wir an, Ihr ursprünglicher Datensatz hatte drei Dimensionen und Sie möchten zwei Faktoren daraus extrahieren. Bleiben wir auch bei der Normalität. In diesem Fall ist die Dichte ein vierdimensionales Objekt, aber die Ebenenkurven sind dreidimensional und können zumindest visualisiert werden. Im unkorrelierten Fall sind die Niveaukurven sphärisch (wie bei einem Fußball). Bei Vorhandensein einer Korrelation werden die Niveaukurven erneut zu einem Fußball verzerrt, wahrscheinlich zu einem nicht aufgeblasenen, so dass die Dicke an den Nähten kleiner ist als die Dicke in den anderen Richtungen.
Wenn Sie mit PCA zwei Faktoren extrahieren, wird der Fußball vollständig zu einer Ellipse abgeflacht (und Sie projizieren jeden Datenpunkt auf die Ebene der Ellipse). Der nicht gedrehte erste Faktor entspricht der langen Achse der Ellipse, der zweite Faktor ist senkrecht dazu (dh die kurze Achse). Die Drehung wählt dann ein Koordinatensystem innerhalb dieser Ellipse aus, um einige andere nützliche Kriterien zu erfüllen.
Wenn Sie nur einen einzelnen Faktor extrahieren, ist eine Drehung nicht möglich, aber Sie können sicher sein, dass der extrahierte PCA-Faktor der Längsachse der Ellipse entspricht.
quelle
fa()
zB seit Jahren nicht mehr benutzt. Andere Methoden ergeben nicht verschachtelte Lösungen, die mit Software und einem FA-Datensatz leicht zu überprüfen sind. Aus Gründen der Vergleichbarkeit können Sie beide Lösungen als nicht gedreht betrachten. FWIW, ich bin mit der Idee von sphärischen und elliptischen MVN-Verteilungen vertraut.Warum sollten Sie nicht so etwas wie Lavaan oder MPlus verwenden, um zwei Modelle (eindimensionales Modell und ein zweidimensionales Modell, das an Ihren EFA-Ergebnissen ausgerichtet ist) auszuführen und die relativen und absoluten Anpassungsindizes der verschiedenen Modelle (dh Informationskriterien - AIC und BIC) zu vergleichen? RMSEA, SRMR, CFI / TLI)? Beachten Sie, dass Sie, wenn Sie diesen Weg gehen, nicht PCA für die EFA verwenden möchten, sondern eher Hauptfaktoren. Jemand, der sich wirklich mit Messung befasst, würde den CFA in ein vollständiges Strukturgleichungsmodell einbetten.
Bearbeiten: Der Ansatz, den Sie in Betracht ziehen sollten, besteht eher darin, herauszufinden, wie viele latente Variablen die Menge der Elemente tatsächlich erklären. Wenn Sie die beste Schätzung des größeren Faktors erhalten möchten, würde ich dafür stimmen, die Faktorwerte aus dem CFA-Modell mit der besseren Anpassung zu verwenden, je nachdem, welcher Wert dies ist.
quelle