Ist es immer besser, mehr Faktoren zu extrahieren, wenn sie existieren?

Im Gegensatz zur Hauptkomponentenanalyse sind die Lösungen für Faktoranalysemodelle nicht unbedingt verschachtelt. Das heißt, die Belastungen (zum Beispiel) für den ersten Faktor sind nicht unbedingt identisch, wenn nur der erste Faktor extrahiert wird, im Vergleich zu den ersten beiden Faktoren.

Stellen Sie sich vor diesem Hintergrund einen Fall vor, in dem Sie eine Reihe von Manifestvariablen haben, die stark korreliert sind und (nach theoretischer Kenntnis ihres Inhalts) von einem einzigen Faktor bestimmt werden sollten. Stellen Sie sich vor, dass explorative Faktoranalysen (nach der von Ihnen bevorzugten Metrik: Parallelanalyse, Geröllplot, Eigenwerte> 1 usw.) stark darauf hindeuten, dass es $2$ Faktoren gibt: einen großen Primärfaktor und einen kleinen Sekundärfaktor. Sie sind daran interessiert, die Manifestvariablen und die Faktorlösung zu verwenden, um die Werte der Teilnehmer für den ersten Faktor zu schätzen (dh Faktorwerte zu erhalten). In diesem Szenario wäre es besser:

Passen Sie ein Faktormodell an, um nur zu extrahieren $1$ Faktor und Faktorwerte (usw.) zu erhalten, oder
Passen Sie ein zu extrahierendes Faktormodell an beide Faktoren , Faktorwerte für die Faktoren zu erhalten, aber die Werte für den zweiten Faktor wegwerfen / ignorieren?

Für welche ist die bessere Praxis, warum? Gibt es Forschungsergebnisse zu diesem Thema?

references factor-analysis psychometrics gung - Monica wieder einsetzen
quelle

Man sollte sich bei der Auswahl der Anzahl der zu extrahierenden Faktoren nicht nur auf die voranalytischen heuristischen Geräte verlassen. Reproduktion von Korrelationen (wie viel besser ist es, wenn Sie 2 Faktoren anstelle von 1 extrahieren?) Wie sind die Korrelationsreste in dieser und jener Lösung verteilt? (Sie sollten normalerweise ungefähr gleichmäßig oder normal sein, kein langer / fetter rechter Schwanz). Wenn die Daten normal sind, können Passungsprüfungen und Belastungsfehler berechnet werden (mit ML-Extraktion). Basierend auf all dem plus Interpretierbarkeit könnte man entscheiden, ob (1) oder (2) Weg im aktuellen Fall besser ist.

ttnphns

(Forts.) Letztendlich können nur neue Proben / bestätigende FA das Dilemma bis zum Ende beurteilen. Ein Begriff jedoch. Wenn der 2. Faktor wirklich schwach ist (kleine SS-Beladungen nach der Extraktion), erwarte ich nicht, dass sich die beiden Lösungen (und damit die Faktorwerte von Faktor 1) stark unterscheiden. (Ich sage es ohne viel Vertrauen, weil ich ohne Überarbeitung kommentiere. Aber logischerweise sollten die Ergebnisse, wenn die

Faktorebene

Der Q-Titel Is is always better to extract more factors when they exist?ist nicht sehr klar. Es ist immer besser, so viele zu extrahieren, wie es gibt. Unter- oder Überanpassung verzerren beide die "wahre" latente Struktur aufgrund der multivariaten und nicht verschachtelten Natur der von Ihnen erwähnten Analyse. Das Problem ist, dass wir nicht genau wissen, wie viele Faktoren in unseren Daten enthalten sind. Und ob diese Daten so viele haben wie die Bevölkerung.

ttnphns

@ttnphns, dein letzter Kommentar bringt die Frage auf den Punkt, denke ich. Nehmen Sie an, welche Methoden Sie auch immer verwenden möchten, um Sie davon zu überzeugen, dass es tatsächlich zwei Faktoren gibt, von denen einer fast die gesamte gemeinsame Varianz ausmacht, bis einschließlich CFA für eine neue Stichprobe. Die Passform mit 2 ist vernachlässigbar besser, aber besser. Dies ist ein gefälschtes und erfundenes Beispiel, um das Problem hervorzuheben. Das zugrunde liegende Problem könnte genauso gut 2 von 5 sein.

gung - Reinstate Monica

Die Frage ist, da die Lösungen nicht verschachtelt sind, welcher Ansatz Ihnen eine bessere Schätzung der Punktzahl jedes Teilnehmers für die latente Variable gibt und warum? Ist die Verwendung von nur 1 voreingenommen, weicht sie weiter vom wahren Wert ab oder beides? Kommt das vor, weil die Verwendung von nur 1 "unteranpassend" ist? Was bedeutet das genau? Ist es möglich, die Art der Verzerrung zu charakterisieren? Alternativ hätte ich vielleicht erwartet, dass das Extrahieren von nur 1 es der Analyse ermöglicht, alle ihre Freiheitsgrade darauf zu konzentrieren, den ersten so genau wie möglich zu erhalten.

Gung - Reinstate Monica

Antworten:

Das Thema, auf das Sie anspielen, ist das Thema „ungefähre Eindimensionalität“ beim Bau psychologischer Testinstrumente, das in den 80er Jahren in der Lituratur viel diskutiert wurde. Die Inspiration bestand in der Vergangenheit darin, dass die Praktiker traditionelle IRT-Modelle (Item Response Theory) für ihre Artikel verwenden wollten. Zu dieser Zeit beschränkten sich diese IRT-Modelle ausschließlich auf die Messung eindimensionaler Merkmale. Daher wurde gehofft, dass Test-Multidimensionalität ein Ärgernis ist, das (hoffentlich) vermieden oder ignoriert werden kann. Dies führte auch zur Entwicklung der parallelen Analysetechniken in der Faktoranalyse (Drasgow und Parsons, 1983) und der DETECT-Methoden.

Das Ignorieren zusätzlicher Merkmale / Faktoren, abgesehen davon, dass offensichtlich das falsche Modell an die Daten angepasst wird (dh das Ignorieren von Informationen über mögliche Modellfehlanpassungen; obwohl dies natürlich trivial sein kann), hat zur Folge, dass die Schätzungen der Merkmale des dominanten Faktors verzerrt werden und daher weniger effizient. Diese Schlussfolgerungen hängen natürlich davon ab, wie die Eigenschaften der zusätzlichen Merkmale (z. B. korrelieren sie mit der primären Dimension, haben sie starke Belastungen, wie viele Querbelastungen gibt es usw.), aber das allgemeine Thema sind sekundäre Schätzungen für das Erhalten von primären Merkmalbewertungen wird weniger effektiv sein. Den technischen Bericht finden Sie hier einen Vergleich zwischen einem falsch angepassten eindimensionalen Modell und einem Bi-Faktor-Modell. Der technische Bericht scheint genau das zu sein, wonach Sie suchen.

Aus praktischer Sicht kann die Verwendung von Informationskriterien bei der Auswahl des optimalsten Modells sowie der Modellanpassungsstatistik im Allgemeinen (RMSEA, CFI usw.) hilfreich sein, da sich die Konsequenzen des Ignorierens mehrdimensionaler Informationen negativ auf die Gesamtanpassung an die Daten auswirken . Die Gesamtmodellanpassung ist jedoch nur ein Hinweis auf die Verwendung eines ungeeigneten Modells für die vorliegenden Daten. Es ist durchaus möglich, dass falsche Funktionsformen wie Nichtlinearität oder mangelnde Monotonie verwendet werden. Daher sollten immer auch die jeweiligen Elemente / Variablen überprüft werden.

Siehe auch :

Drasgow, F. und Parsons, CK (1983). Anwendung eindimensionaler Modelle der Item-Response-Theorie auf mehrdimensionale Daten. Applied Psychological Measurement, 7 (2), 189-199.

Drasgow, F. & Lissak, RI (1983). Modifizierte parallele Analyse: Ein Verfahren zur Untersuchung der Latentdimensionalität dichotom bewerteter Item-Antworten. Journal of Applied Psychology, 68, 363-373.

Levent Kirisci, Tse-chi Hsu und Lifa Yu (2001). Robustheit von Programmen zur Schätzung von Elementparametern gegenüber Annahmen von Eindimensionalität und Normalität. Applied Psychological Measurement, 25 (2), 146-162.

Philchalmers
quelle

Vielen Dank, dass Sie dies hinzugefügt haben. Dies scheint genau das zu sein, wonach ich suche.

Gung - Reinstate Monica

Verstehe ich richtig, dass Ihre Antwort auf die Titelfrage "Ja" lautet?

Amöbe sagt Reinstate Monica

@amoeba im Allgemeinen würde ich ja sagen oder mehr, dass das Einbeziehen der zusätzlichen Informationen genauso gut oder besser sein sollte, als eine strikte Eindimensionalität aufzuerlegen. Das Ignorieren bekannter Mehrdimensionalität kann sehr problematisch sein, aber natürlich werden eine Reihe von Faktoren dazu beitragen. Die einzige Zeit, in der die zusätzlichen Informationen über die Struktur möglicherweise schlecht sind, ist, wenn die Stichprobengröße zu klein ist, um die zusätzlichen Parameter stabil abzuschätzen. Also, Bias-Effizienz-Kompromiss. Aber wenn die Stichprobengröße kein großes Problem darstellt, würde ich sagen, dass es wenig zu verlieren gibt, wenn zusätzliche Informationen hinzugefügt werden (aber viel zu verlieren, wenn nicht).

Philchalmers

Wenn Sie den zweiten Faktor wirklich nicht verwenden möchten, sollten Sie nur ein Ein-Faktor-Modell verwenden. Ich bin jedoch verwirrt über Ihre Bemerkung, dass sich die Belastungen für den ersten Faktor ändern, wenn Sie einen zweiten Faktor verwenden.

$x$ ist also ein Faktor $-x$ ist eine legitime Art, es auch auszudrücken). Wenn Sie die Extraktion mit maximaler Wahrscheinlichkeit und / oder Faktorrotationen verwenden, hängen die Belastungen möglicherweise von der Anzahl der von Ihnen extrahierten Faktoren ab.

Als nächstes zur Erklärung der Auswirkungen von Rotationen. Ich kann nicht gut zeichnen, deshalb werde ich versuchen, Sie mit Worten zu überzeugen. Ich gehe davon aus, dass Ihre Daten (ungefähr) normal sind, so dass die Faktorwerte auch ungefähr normal sind. Wenn Sie einen Faktor extrahieren, erhalten Sie eine eindimensionale Normalverteilung. Wenn Sie zwei Faktoren extrahieren, erhalten Sie eine bivariate Normalverteilung.

Die Dichte einer bivariaten Verteilung sieht ungefähr wie ein Hut aus, aber die genaue Form hängt sowohl von der Skalierung als auch vom Korrelationskoeffizienten ab. Nehmen wir also an, dass die beiden Komponenten jeweils eine Einheitsvarianz aufweisen. Im unkorrelierten Fall erhalten Sie einen schönen Sombrero mit ebenen Kurven, die wie Kreise aussehen. Ein Bild ist hier . Die Korrelation "zerquetscht" den Hut, so dass er eher wie ein Napoleon-Hut aussieht .

Nehmen wir an, Ihr ursprünglicher Datensatz hatte drei Dimensionen und Sie möchten zwei Faktoren daraus extrahieren. Bleiben wir auch bei der Normalität. In diesem Fall ist die Dichte ein vierdimensionales Objekt, aber die Ebenenkurven sind dreidimensional und können zumindest visualisiert werden. Im unkorrelierten Fall sind die Niveaukurven sphärisch (wie bei einem Fußball). Bei Vorhandensein einer Korrelation werden die Niveaukurven erneut zu einem Fußball verzerrt, wahrscheinlich zu einem nicht aufgeblasenen, so dass die Dicke an den Nähten kleiner ist als die Dicke in den anderen Richtungen.

Wenn Sie mit PCA zwei Faktoren extrahieren, wird der Fußball vollständig zu einer Ellipse abgeflacht (und Sie projizieren jeden Datenpunkt auf die Ebene der Ellipse). Der nicht gedrehte erste Faktor entspricht der langen Achse der Ellipse, der zweite Faktor ist senkrecht dazu (dh die kurze Achse). Die Drehung wählt dann ein Koordinatensystem innerhalb dieser Ellipse aus, um einige andere nützliche Kriterien zu erfüllen.

Wenn Sie nur einen einzelnen Faktor extrahieren, ist eine Drehung nicht möglich, aber Sie können sicher sein, dass der extrahierte PCA-Faktor der Längsachse der Ellipse entspricht.

user3697176
quelle

Diese Antwort verwirrt mich. Die Frage fragt explizit nach der Faktoranalyse im Gegensatz zur Hauptkomponentenanalyse.

Amöbe sagt Reinstate Monica

Es gibt zwei Möglichkeiten, Faktoren zu extrahieren: Hauptkomponenten oder maximale Wahrscheinlichkeit. Ich habe keine Statistiken dazu erstellt, aber ich glaube, dass die Hauptkomponentenmethode häufiger verwendet wird.

user3697176

Es gibt viele verschiedene Methoden, mehr als zwei. Hauptachse, ML, Minres, gewichtete kleinste Quadrate und mehr - ich bin hier kein Experte. PCA wird vielleicht manchmal (selten!) Auch als Methode zur Faktorextraktion angesehen, aber das ist ziemlich schlampig - sollte es wirklich nicht sein. Es passt zu einem anderen Modell.

Amöbe sagt Reinstate Monica

Ihr 1. Satz spricht mein Q an. Es wäre schön, mehr darüber zu hören und warum es richtig sein könnte. In Bezug auf Methoden zum Extrahieren von Faktoren hat @amoeba Recht: PCA und PAF waren damals üblich, als andere Algorithmen nicht so gut entwickelt oder schwer zu implementieren waren. Sie gelten heute allgemein als minderwertig. Rs hat sie fa()zB seit Jahren nicht mehr benutzt. Andere Methoden ergeben nicht verschachtelte Lösungen, die mit Software und einem FA-Datensatz leicht zu überprüfen sind. Aus Gründen der Vergleichbarkeit können Sie beide Lösungen als nicht gedreht betrachten. FWIW, ich bin mit der Idee von sphärischen und elliptischen MVN-Verteilungen vertraut.

Gung - Reinstate Monica

@gung, eine Bemerkung. Die PAF-Methode liefert auch nicht verschachtelte Lösungen. Es ist eine echte FA-Methode (obwohl sie auf PCA als Methode basiert) und wird vermutlich immer noch weit verbreitet verwendet.

ttnphns

Warum sollten Sie nicht so etwas wie Lavaan oder MPlus verwenden, um zwei Modelle (eindimensionales Modell und ein zweidimensionales Modell, das an Ihren EFA-Ergebnissen ausgerichtet ist) auszuführen und die relativen und absoluten Anpassungsindizes der verschiedenen Modelle (dh Informationskriterien - AIC und BIC) zu vergleichen? RMSEA, SRMR, CFI / TLI)? Beachten Sie, dass Sie, wenn Sie diesen Weg gehen, nicht PCA für die EFA verwenden möchten, sondern eher Hauptfaktoren. Jemand, der sich wirklich mit Messung befasst, würde den CFA in ein vollständiges Strukturgleichungsmodell einbetten.

Bearbeiten: Der Ansatz, den Sie in Betracht ziehen sollten, besteht eher darin, herauszufinden, wie viele latente Variablen die Menge der Elemente tatsächlich erklären. Wenn Sie die beste Schätzung des größeren Faktors erhalten möchten, würde ich dafür stimmen, die Faktorwerte aus dem CFA-Modell mit der besseren Anpassung zu verwenden, je nachdem, welcher Wert dies ist.

Erik Ruzek
quelle