Faktoranalyse von Fragebögen aus Likert-Items

17

Ich habe Gegenstände aus psychometrischer Sicht analysiert. Aber jetzt versuche ich, andere Arten von Fragen zu Motivation und anderen Themen zu analysieren. Diese Fragen beziehen sich alle auf Likert-Skalen. Mein erster Gedanke war, die Faktorenanalyse zu verwenden, da angenommen wird, dass die Fragen einige zugrunde liegende Dimensionen widerspiegeln.

  • Aber ist eine Faktorenanalyse angebracht?
  • Ist es notwendig, jede Frage hinsichtlich ihrer Dimensionalität zu validieren?
  • Gibt es ein Problem bei der Durchführung von Faktorenanalysen für Likert-Artikel?
  • Gibt es gute Papiere und Methoden zur Durchführung von Faktorenanalysen zu Likert und anderen kategorialen Elementen?
pbneau
quelle
Wenn ich richtig verstehe, umfasst Ihre Frage mindestens zwei verschiedene Themen: (1) Verwendung von FA in Einstellungsskalen oder Motivationsskalen und (2) Umgang mit „extremen“ Reaktionsmustern (Decken- / Bodeneffekten) in solchen Skalen?
Chl

Antworten:

22

Nach dem, was ich bisher gesehen habe, wird FA für Einstellungselemente verwendet, ebenso wie für andere Arten von Bewertungsskalen. Das Problem, das sich aus der verwendeten Metrik ergibt (d. H. "Sind Likert-Skalen wirklich als numerische Skalen zu behandeln?"), Besteht seit langem. Wenn Sie jedoch die glockenförmige Antwortverteilung überprüfen, können Sie diese als kontinuierliche Messungen behandeln. andernfalls kann die Prüfung auf nichtlineare FA-Modelle oder optimale Skalierung von polytmomen IRT-Modellen wie dem Graded Response-, Rating Scale- oder Partial Credit-Modell durchgeführt werden. Die beiden letzteren können verwendet werden, um grob zu überprüfen, ob die Schwellenabstände, wie sie in Likert-artigen Elementen verwendet werden, ein Merkmal des Antwortformats (RSM) oder des bestimmten Elements (PCM) sind.

In Bezug auf Ihren zweiten Punkt ist beispielsweise bekannt, dass sich die Antwortverteilungen in Einstellungs - oder Gesundheitsumfragen von Land zu Land unterscheiden (z. B. heben die Chinesen im Vergleich zu denen aus westlichen Ländern tendenziell "extreme" Antwortmuster hervor, siehe z. B. Song , X.-Y. (2007) Analyse von Strukturgleichungsmodellen mit mehreren Stichproben mit Anwendungen auf Daten zur Lebensqualität, in Handbook of Latent Variable and Related Models , Lee, S.-Y. (Hrsg.), S. 279-302, North -Holland). Einige Methoden, mit solchen Situationen umzugehen:

  • Verwendung logarithmischer linearer Modelle (Marginalansatz), um ein starkes Ungleichgewicht zwischen den Gruppen auf Positionsebene hervorzuheben (Koeffizienten werden dann als relative Risiken anstatt als Chancen interpretiert);
  • die oben zitierte Multi-Sample-SEM-Methode von Song (Sie wissen jedoch nicht, ob sie an diesem Ansatz weiterarbeiten).

Nun geht es darum, dass sich die meisten dieser Ansätze auf die Objektebene konzentrieren (Decken- / Bodeneffekt, verminderte Zuverlässigkeit, schlechte Objektpassungsstatistik usw.), aber wenn man interessiert ist, wie die Menschen von dem abweichen, was von einem Ideal erwartet wird Ich denke, wir müssen uns stattdessen auf die Person-Fit-Indizes konzentrieren.

Solche Statistiken sind leicht für die IRT - Modelle zur Verfügung, wie INFIT oder OUTFIT mittleren quadratischen, aber sie gelten im großen und ganzen Fragebogen im Allgemeinen. Da die Schätzung von Elementparametern zum Teil von Personenparametern abhängt (z. B. im Rahmen der Grenzwahrscheinlichkeit, nehmen wir eine Gauß-Verteilung an), kann das Vorhandensein von abgelegenen Personen zu potenziell voreingenommenen Schätzungen und einer schlechten Modellanpassung führen.χ2

Wie von Eid und Zickar (2007) vorgeschlagen, Kombination eines latenten Klassenmodells (um eine Gruppe von Befragten zu isolieren, z. B. diejenigen, die immer auf die extremen Kategorien antworten, im Vergleich zu den anderen) und eines IRT-Modells (um Elementparameter und Personenstandorte auf dem latenten zu schätzen) Merkmal in beiden Gruppen) erscheint eine schöne Lösung. Andere Modellierungsstrategien werden in ihrer Arbeit beschrieben (z. B. HYBRID-Modell, siehe auch Holden und Book, 2009).

Ebenso können Entfaltungsmodelle verwendet werden, um mit dem Antwortstil umzugehen , der als konsistentes und inhaltsunabhängiges Muster der Antwortkategorie definiert ist (z. B. Tendenz, mit allen Aussagen übereinzustimmen). In den Sozialwissenschaften oder in der psychologischen Literatur wird dies als Extreme Response Style (ERS) bezeichnet. Referenzen (1–3) können hilfreich sein, um eine Vorstellung davon zu bekommen, wie sie sich manifestiert und wie sie gemessen werden kann.

Hier ist eine kurze Liste von Artikeln, die dazu beitragen können, in diesem Bereich Fortschritte zu erzielen:

  1. Hamilton, DL (1968). Persönlichkeitsmerkmale im Zusammenhang mit extremem Reaktionsstil . Psychological Bulletin , 69 (3) : 192–203.
  2. Greanleaf, EA (1992). Messung des extremen Reaktionsstils. Öffentliche Meinung Quaterly , 56 (3) : 328-351.
  3. de Jong, MG, Steenkamp, ​​J.-BEM, Fox, J.-P. und Baumgartner, H. (2008). Verwenden der Item-Response-Theorie zur Messung extremer Reaktionsstile in der Marketingforschung: Eine globale Untersuchung. Journal of Marketing Research , 45 (1) : 104-115.
  4. Morren, M., Gelissen, J. und Vermunt, JK (2009). Umgang mit extremem Reaktionsstil in der interkulturellen Forschung: Ein eingeschränkter Ansatz zur Analyse latenter Klassenfaktoren
  5. Moors, G. (2003). Diagnostizieren des Verhaltens von Antwortstilen mithilfe eines Latent-Class-Factor-Ansatzes. Soziodemografische Korrelate von Geschlechterrolleneinstellungen und Wahrnehmungen von ethnischer Diskriminierung werden erneut untersucht. Qualität & Quantität , 37 (3), 277-302.
  6. de Jong, MG Steenkamp JB, Fox, J.-P. und Baumgartner, H. (2008). Item-Response-Theorie zur Messung extremer Reaktionsstile in der Marketingforschung: Eine globale Untersuchung. Journal of Marketing Research , 45 (1), 104-115.
  7. Javaras, KN ​​und Ripley, BD (2007). Ein latentes Variablenmodell zur „Entfaltung“ von Likert-Haltungsdaten. JASA , 102 (478): 454 & ndash; 463.
  8. Objektträger von Moustaki, Knott und Mavridis, Methoden zur Erkennung von Ausreißern in latent variablen Modellen
  9. Eid, M. und Zickar, MJ (2007). Erkennen von Antwortstilen und Fälschen von Persönlichkeits- und Organisationsbewertungen durch gemischte Rasch-Modelle. In von Davier, M. und Carstensen, CH (Hrsg.), Multivariate and Mixture Distribution Rasch Models , S. 255–270, Springer.
  10. Holden, RR und Book, AS (2009). Verwenden von hybriden Rasch-latenten Klassenmodellen, um die Erkennung von Fälschern in einem Persönlichkeitsinventar zu verbessern. Persönlichkeit und individuelle Unterschiede , 47 (3) : 185-190.
chl
quelle
Gebrochene Links für Hamilton (1968) und Morren, Gelissen und Vermunt (2009) ... Mist! Es konnten auch keine alternativen Quellen mit Google Scholar gefunden werden (ich habe es jedoch noch nicht mit dem regulären alten Google versucht).
Nick Stauner
13

Die exploratorische Faktoranalyse (EFA) eignet sich (psychometrisch und auf andere Weise) zur Untersuchung des Ausmaßes, in dem sich Zusammenhänge zwischen mehreren Elementen erklären lassen, indem auf den gemeinsamen Einfluss eines oder mehrerer nicht gemessener (dh latenter) Faktoren geschlossen wird. Wenn dies nicht Ihre spezielle Absicht ist, ziehen Sie alternative Analysen in Betracht, z.

  • Allgemeine lineare Modellierung (z. B. multiple Regression, kanonische Korrelation oder (M) AN (C) OVA)
  • Confirmatory Factor Analysis (CFA) oder Latent Trait / Class / Profile-Analysen
  • Strukturgleichung (SEM) / Partielle Kleinste-Quadrate-Modellierung

Dimensionalität ist das erste Problem, mit dem sich EFA befassen kann. Sie können die Eigenwerte der Kovarianzmatrix untersuchen (z. B. durch Erstellen eines Geröllplots über EFA) und eine parallele Analyse durchführen, um die Dimensionalität Ihrer Maße aufzulösen. (Siehe auch einige gute Ratschläge und alternative Vorschläge von William Revelle .) Sie sollten dies sorgfältig tun, bevor Sie eine begrenzte Anzahl von Faktoren extrahieren und in EFA drehen, oder bevor Sie ein Modell mit einer bestimmten Anzahl latenter Faktoren mithilfe von CFA, SEM oder dergleichen. Wenn eine parallele Analyse auf Mehrdimensionalität hinweist, Ihr allgemeiner (erster) Faktor jedoch alle anderen bei weitem überwiegt (dh bei weitem den größten Eigenwert aufweist / die Mehrheit der Abweichungen in Ihren Maßen erklärt), ziehen Sie die Bifaktoranalyse in Betracht (Gibbons & Hedeker, 1992;Reise, Moore & Haviland, 2010 ) .

Bei der EFA- und Latentfaktormodellierung von Likert-Skalenbewertungen treten viele Probleme auf. Likert-Skalen erzeugen ordinale (dh kategoriale, polytome, geordnete) Daten, keine kontinuierlichen Daten. Bei der Faktoranalyse wird im Allgemeinen davon ausgegangen, dass die Eingabe der Rohdaten kontinuierlich ist, und häufig werden Faktoranalysen von Matrizen der Pearson-Produkt-Moment-Korrelationen durchgeführt, die nur für kontinuierliche Daten geeignet sind. Hier ein Zitat von Reise und Kollegen (2010) :

Gewöhnliche Analyseverfahren für Bestätigungsfaktoren gelten nicht für dichotome oder polytome Daten (Byrne, 2006) . Stattdessen sind spezielle Schätzverfahren erforderlich (Wirth & Edwards, 2007) . Grundsätzlich gibt es drei Möglichkeiten, mit polytomen Artikelantwortdaten zu arbeiten. Die erste besteht darin, eine polychrone Matrix zu berechnen und dann Standardfaktor-Analysemethoden anzuwenden (siehe Knol & Berger, 1991) . Eine zweite Möglichkeit besteht in der Verwendung einer Analyse des vollständigen Informationsfaktors (Gibbons & Hedeker, 1992) . Die dritte Möglichkeit ist die Verwendung von Verfahren zur eingeschränkten Informationsschätzung, die speziell für geordnete Daten wie gewichtete kleinste Quadrate mit Mittelwert- und Varianzanpassung entwickelt wurden (MPLUS; Muthén & Muthén, 2009) .

Ich würde empfehlen, sowohl den ersten als auch den dritten Ansatz zu kombinieren (dh eine diagonal gewichtete Schätzung der kleinsten Quadrate auf der Grundlage einer polychromen Korrelationsmatrix zu verwenden), basierend auf Wang und Cunninghams (2005) Diskussion der Probleme mit typischen Alternativen:

Wenn eine Bestätigungsfaktoranalyse mit nicht normalen ordinalen Daten unter Verwendung der maximalen Wahrscheinlichkeit und basierend auf Pearson-Produkt-Moment-Korrelationen durchgeführt wurde, stimmten die in dieser Studie erstellten Abwärtsparameterschätzungen mit den Ergebnissen von Olsson (1979) überein . Mit anderen Worten ist die Größe der Nichtnormalität in den beobachteten Ordinalvariablen eine Hauptdeterminante für die Genauigkeit von Parameterschätzungen.

Die Ergebnisse stützen auch die Ergebnisse von Babakus et al. (1987) . Wenn die Maximum-Likelihood-Schätzung mit einer Eingangsmatrix für die polychrone Korrelation in Bestätigungsfaktoranalysen verwendet wird, führen die Lösungen in der Regel zu inakzeptablen und daher signifikanten Chi-Quadrat-Werten zusammen mit Statistiken für eine schlechte Anpassung.

Es bleibt die Frage, ob Forscher Schätzer für gewichtete kleinste Quadrate oder für diagonal gewichtete kleinste Quadrate bei der Schätzung von Strukturgleichungsmodellen mit nicht normalen kategorialen Daten verwenden sollten. Weder die Schätzung der gewichteten kleinsten Quadrate noch die Schätzung der diagonal gewichteten kleinsten Quadrate lassen Annahmen über die Art der Verteilung der Variablen zu, und beide Methoden liefern asymptotisch gültige Ergebnisse. Da die Schätzung der gewichteten kleinsten Quadrate auf Momenten vierter Ordnung basiert, führt dieser Ansatz jedoch häufig zu praktischen Problemen und ist sehr rechenintensiv. Dies bedeutet, dass es bei der Schätzung der kleinsten Quadrate unter Umständen an Robustheit mangelt, wenn Modelle mit mittleren, dh mit 10 Indikatoren, großen und kleinen bis mittleren Stichprobengrößen bewertet werden.

Mir ist nicht klar, ob das gleiche Problem mit der Schätzung der kleinsten Quadrate auch für die DWLS-Schätzung gilt. Unabhängig davon empfehlen die Autoren diesen Schätzer. Falls Sie noch nicht über die Mittel verfügen:

  • R (R Core Team, 2012) ist kostenlos. Sie benötigen eine alte Version (zB 2.15.2) für diese Pakete:
    • Das psychPaket (Revelle, 2013) enthält die polychoricFunktion.
      • Die fa.parallelFunktion kann dabei helfen, die Anzahl der zu extrahierenden Faktoren zu ermitteln.
    • Das lavaanPaket (Rosseel, 2012) bietet eine DWLS-Schätzung für die Analyse latenter Variablen.
    • Das semToolsPaket enthält die efaUnrotate, orthRotateund oblqRotateFunktionen.
    • Das mirtPaket (Chalmers, 2012) bietet vielversprechende Alternativen unter Verwendung der Item-Response-Theorie.

Ich kann mir vorstellen, dass Mplus (Muthén & Muthén, 1998-2011) auch funktionieren würde, aber die kostenlose Demoversion bietet nicht mehr als sechs Messungen und die lizenzierte Version ist nicht billig. Es könnte sich lohnen, wenn Sie es sich leisten können. Die Leute lieben Mplus und der Kundenservice der Muthéns über ihre Foren ist unglaublich!

Wie oben erwähnt, überwindet die DWLS-Schätzung das Problem von Verstößen gegen die Normalitätsannahme (sowohl univariate als auch multivariate), das ein sehr verbreitetes Problem darstellt und in Likert-Bewertungsdaten fast allgegenwärtig ist. Dies ist jedoch nicht unbedingt ein pragmatisches Folgeproblem. Die meisten Methoden sind nicht zu empfindlich gegenüber (stark von) kleinen Verstößen beeinflusst (vgl. Ist das Testen der Normalität im Wesentlichen nutzlos? ). Die Antwort von @ chl auf diese Frage wirft wichtigere, herausragendere Punkte und Vorschläge auch in Bezug auf Probleme mit extremem Antwortstil auf. definitiv ein Problem mit Likert-Skalenbewertungen und anderen subjektiven Daten.


Literatur
· Babakus, E., Ferguson, JCE & Jöreskog, KG (1987). Die Empfindlichkeit der konfirmatorischen Maximum-Likelihood-Faktor-Analyse gegenüber Verstößen gegen Messskalen und Verteilungsannahmen. Journal of Marketing Research, 24 , 222–228.
· Byrne, BM (2006). Strukturgleichungsmodellierung mit EQS. Mahwah, NJ: Lawrence Erlbaum.
· Chalmers, RP (2012). mirt: Ein mehrdimensionales Item-Response-Theorie-Paket für die R-Umgebung. Journal of Statistical Software, 48 (6), 1–29. Abgerufen von http://www.jstatsoft.org/v48/i06/ .
· Gibbons, RD & amp; Hedeker, DR (1992). Bifaktoranalyse für alle Informationen. Psychometrika, 57 , 423–436.
· Knol, DL & Berger, MPF (1991). Empirischer Vergleich zwischen Faktoranalyse und mehrdimensionalen Item Response Modellen. Multivariate Verhaltensforschung, 26 , 457–477.
· Muthén, LK & Muthén, BO (1998-2011). Mplus Benutzerhandbuch (6. Ausgabe). Los Angeles, Kalifornien: Muthén & Muthén.
· Muthén, LK & Muthén, BO (2009). Mplus (Version 4.00). [Computer Software]. Los Angeles, CA: Autor. URL: http://www.statmodel.com .
· Olsson, U. (1979). Maximum-Likelihood-Schätzungen für den polychronen Korrelationskoeffizienten. Psychometrika, 44 , 443–460.
·R Kernteam. (2012). R: Eine Sprache und Umgebung für statistisches Rechnen. R Stiftung für Statistisches Rechnen, Wien, Österreich. ISBN 3-900051-07-0, URL: http://www.R-project.org/ .
· Reise, SP, Moore, TM & Haviland, MG (2010). Bifaktormodelle und Rotationen: Untersuchung, inwieweit mehrdimensionale Daten eindeutige Skalenergebnisse liefern. Journal of Personality Assessment, 92 (6), 544–559. Abgerufen von http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2981404/ .
· Revelle, W. (2013). psych: Verfahren für die Persönlichkeits- und psychologische Forschung. Northwestern University, Evanston, Illinois, USA. Abgerufen von http://CRAN.R-project.org/package=psych . Version = 1.3.2.
· Rosseel, Y. (2012). lavaan: Ein R-Paket für die Modellierung von Strukturgleichungen. Journal of Statistical Software, 48 (2), 1–36. Abgerufen von http://www.jstatsoft.org/v48/i02/ .
· Wang, WC & Cunningham, EG (2005). Vergleich alternativer Schätzmethoden in Bestätigungsfaktoranalysen des Allgemeinen Gesundheitsfragebogens. Psychological Reports, 97 , 3–10.
· Wirth, RJ & Edwards, MC (2007). Item-Faktor-Analyse: Aktuelle Ansätze und zukünftige Richtungen. Psychological Methods, 12 , 58–79. Abgerufen von http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3162326/ .

Nick Stauner
quelle
(+11) Ich weiß nicht, wie ich deine Antwort verpasst habe!
Chl
Ha! Vielen Dank! Dieser sitzt schon eine Weile da draußen. Ich nahm an, dass es nur ein bisschen zu lang oder undurchsichtig war oder dass ich auf neue Methoden angewiesen war, die kontroverser waren, als ich erkannte. Anscheinend wusste ich auch noch nicht, wie ich Tags für Benutzernamen verwenden soll.
Nick Stauner