Wie kann die Anzahl der Elemente mithilfe der Faktorenanalyse, der internen Konsistenz und der Elementantworttheorie in Verbindung reduziert werden?

12

Ich bin gerade dabei, einen Fragebogen empirisch zu entwickeln, und werde in diesem Beispiel beliebige Zahlen verwenden, um dies zu veranschaulichen. Für den Kontext entwickle ich einen psychologischen Fragebogen, der darauf abzielt, Gedankenmuster zu bewerten, die häufig bei Menschen mit Angststörungen festgestellt werden. Ein Artikel könnte so aussehen: "Ich muss den Ofen wiederholt prüfen, weil ich nicht sicher bin, ob er ausgeschaltet ist. "

Ich habe 20 Fragen (5-Punkte-Likert), die sich aus einem oder zwei Faktoren zusammensetzen können. Ich bin bereit, ungefähr die Hälfte der Elemente zu löschen und 10 Fragen zu einem von zwei Faktoren zu hinterlassen.

Ich kenne mich mit exploratorischer Faktoranalyse (EFA), interner Konsistenz (Cronbachs Alpha) und Item-Kennlinien in der Item-Response-Theorie (IRT) aus. Ich kann sehen, wie ich eine dieser Methoden verwenden würde, um zu bestimmen, welche Elemente innerhalb einer einzelnen Skala "schlechter" sind. Ich schätze, dass jede Methode auch unterschiedliche Fragen beantwortet, obwohl sie zu ähnlichen Ergebnissen führen kann und ich nicht sicher bin, welche "Frage" am wichtigsten ist.

Bevor wir beginnen, vergewissern wir uns, dass ich weiß, was ich mit jeder dieser Methoden einzeln mache.

  • Mit EFA würde ich die Anzahl der Faktoren identifizieren und die Elemente entfernen, die den jeweiligen Faktor am wenigsten belasten (sagen wir <.30) oder die sich im Wesentlichen über mehrere Faktoren hinweg belasten.

  • Unter Verwendung der internen Konsistenz würde ich Elemente entfernen, die das schlechtere "Alpha, wenn Element gelöscht" haben. Ich könnte dies unter der Annahme eines Faktors in meiner Skala tun oder es nach einer anfänglichen EFA tun, um die Anzahl der Faktoren zu identifizieren und anschließend mein Alpha für jeden Faktor auszuführen.

  • Mit IRT entferne ich Elemente, die den interessierenden Faktor nicht in Bezug auf ihre Antwortoptionen (5 Likert) bewerten. Ich würde Artikelkennlinien mustern. Grundsätzlich würde ich nach einer Linie in einem 45-Grad-Winkel suchen, die von Option 1 auf der Likert-Skala bis zu 5 entlang der latenten Punktzahl reicht. Ich könnte dies unter der Annahme eines Faktors oder nach einer anfänglichen
    EFA tun , um die Anzahl der Faktoren zu ermitteln, und anschließend die Kurven für jeden Faktor ausführen.

Ich bin mir nicht sicher, welche dieser Methoden ich verwenden soll, um die "schlechtesten" zu identifizieren. Ich verwende das Schlimmste im weitesten Sinne so, dass der Gegenstand für die Maßnahme nachteilig ist, entweder in Bezug auf die Zuverlässigkeit oder die Gültigkeit, die für mich beide gleich wichtig sind. Vermutlich kann ich sie zusammen verwenden, aber ich bin nicht sicher, wie.

Wenn ich mit dem, was ich jetzt weiß, weitermachen und mein Bestes geben würde, würde ich Folgendes tun:

  1. Führen Sie eine EFA durch, um die Anzahl der Faktoren zu ermitteln. Löschen Sie auch Elemente mit schlechten Ladevorgängen in Bezug auf ihre jeweiligen Faktoren, da ich keine Elemente möchte, die schlecht geladen sind, unabhängig davon, wie sie sich in anderen Analysen verhalten würden.
  2. Führen Sie eine IRT durch und entfernen Sie auch die nach dieser Analyse bewerteten fehlerhaften Elemente, falls noch solche von der EFA übrig sind.
  3. Melden Sie einfach Cronbachs Alpha und verwenden Sie diese Metrik nicht zum Löschen von Elementen.

Alle allgemeinen Richtlinien wäre sehr dankbar!

Hier finden Sie auch eine Liste spezifischer Fragen, die Sie möglicherweise beantworten können:

  1. Was ist der praktische Unterschied zwischen dem Entfernen von Elementen basierend auf Faktorladungen und dem Entfernen von Elementen basierend auf Chronbachs Alpha (vorausgesetzt, Sie verwenden für beide Analysen dasselbe Faktorlayout)?

  2. Was soll ich zuerst tun? Angenommen, ich mache EFA und IRT mit einem Faktor und beide identifizieren unterschiedliche Elemente, die entfernt werden sollen. Welche Analyse sollte Priorität haben?

Ich bin nicht fest entschlossen, all diese Analysen durchzuführen, obwohl ich Chronbachs Alpha trotzdem berichten werde. Ich habe das Gefühl, nur IRT zu machen, würde etwas vermissen lassen, und ebenso nur für EFA.

Behacad
quelle
Wenn Sie die Konstruktvalidität über FA erreichen möchten, sollten Sie natürlich mit FA beginnen (nachdem Sie Elemente mit "schlecht" ausgesiebt haben, z. B. zu verzerrte Verteilungen). Ihre Beschäftigung mit FA wird komplex und iterativ sein. Nachdem Sie die meisten "schwachen" Elemente weggeworfen haben, führen Sie FA erneut aus, überprüfen Sie den KMO-Index, den Grad der Wiederherstellung der Korrelationen, die Interpretierbarkeit des Faktors, prüfen Sie, ob weitere Elemente gelöscht werden müssen, und wiederholen Sie den
Vorgang
1
Sie entfernen die Elemente mit dem höchsten "Alpha, wenn Element entfernt" nicht niedrigsten ...
Es ist komisch! In Bezug auf diese grundlegende Frage haben wir innerhalb von 3 Jahren keine anerkannte Antwort.
WhiteGirl

Antworten:

3

Ich habe keine Zitate, aber Folgendes würde ich vorschlagen:

Zeroth: Teilen Sie die Daten nach Möglichkeit in ein Trainings- und Test-Set auf.

Zuerst machen Sie EFA. Schauen Sie sich verschiedene Lösungen an, um herauszufinden, welche nach Ihren Kenntnissen der Fragen sinnvoll sind. Sie müssten dies vor Cronbachs Alpha tun, sonst wissen Sie nicht, welche Elemente in welchen Faktor eingehen. (Es ist wahrscheinlich keine gute Idee, alpha auf ALLEN Elementen auszuführen).

Führen Sie als Nächstes Alpha aus und löschen Sie Elemente, deren Korrelationen in den einzelnen Faktoren weitaus schlechter sind als die der anderen. Ich würde keine willkürliche Grenze festlegen, ich würde nach solchen Ausschau halten, die viel niedriger sind als die anderen. Prüfen Sie, ob das Löschen dieser Einträge sinnvoll ist.

Wählen Sie abschließend aus dem IRT Gegenstände mit verschiedenen Schwierigkeitsgraden aus.

Wenn möglich, wiederholen Sie dies auf dem Test-Set, ohne jedoch etwas zu erforschen. Das heißt, sehen Sie, wie gut das auf dem Trainingssatz gefundene Ergebnis auf dem Testsatz funktioniert.

Peter Flom - Wiedereinsetzung von Monica
quelle
Danke für die Antwort. Dies ist in die Richtung, in die ich gedacht habe, obwohl ich nicht sicher bin, ob ich die Fälle haben werde, um die Daten aufzuteilen. Da sich die Gegenstände auf einer 5-Punkte-Likert-Skala befinden, erwarte ich, dass die meisten von ihnen oder zumindest die "guten" ähnliche Schwierigkeiten aufweisen werden.
Behacad
1
Sicherlich kennen Sie gute Referenzen :-) Ich würde Sie in den folgenden Punkten necken (da dieser Thread wahrscheinlich als Referenz für zukünftige Fragen dienen wird). (a) Normalerweise erfolgt das Löschen von Elementen auf der Grundlage von Cronbachs Alpha ohne Berücksichtigung eines Kreuzvalidierungsschemas. Offensichtlich handelt es sich um einen voreingenommenen Ansatz, da dieselben Personen zur Schätzung beider Maßnahmen herangezogen werden. (b) Eine andere Alternative besteht darin, die Korrelation zwischen Element und Skala unter Berücksichtigung der Restpunktzahl (d. h. der Summenpunktzahl ohne Berücksichtigung des betreffenden Elements) zu bestimmen. (...)
chl
1
(...) (c) Schließlich werden IRT-Modelle häufig zum Verwerfen von Artikeln (im Sinne der Skalenreinigung ) auf der Grundlage von Artikelanpassungsstatistiken und dergleichen verwendet. Was ist Ihre Meinung zu diesem Ansatz?
Chl
Zu Ihrer Information Ich kann wahrscheinlich Referenzen für jede dieser Methoden einzeln finden, würde mich jedoch über mögliche Referenzen für die Verwendung einer dieser Methoden in Verbindung freuen. Alle Referenzen wäre toll, wirklich! Sie wissen (und wahrscheinlich sind!) Rezensenten ...
Behacad
@chl Ich konnte Referenzen ausgraben, kenne sie aber nicht ganz. Auf a) und b) kommt es wahrscheinlich mehr an, als die meisten Leute denken; Jemand sollte eine Simulation machen. zu c) Es ist schon eine Weile her, seit ich IRT-Sachen gemacht habe (mein Abschluss ist in Psychometrie, aber das ist lange her).
Peter Flom - Reinstate Monica
2

Alle drei von Ihnen vorgeschlagenen Kriterien können tatsächlich im IRT durchgeführt werden, genauer gesagt im mehrdimensionalen IRT. Wenn Ihre Stichprobe ziemlich groß ist, ist dies wahrscheinlich eine konsequente Vorgehensweise für jede Subskala. Auf diese Weise können Sie die Vorteile von IRT nutzen, um Artikel unabhängig zu modellieren (unter Verwendung von Nominalmodellen für einige Artikel, verallgemeinerte Teilgutschriften oder abgestufte Modelle für andere Artikel, oder wenn möglich sogar Bewertungsskalen einrichten, um polytome Artikel sparsamer zu interpretieren).

θ

θ

Sie könnten versuchen, Elemente zu entfernen, die nicht den eindimensionalen Anforderungen der meisten IRT-Software entsprechen, aber ich würde dies nicht unbedingt empfehlen, wenn es die theoretische Darstellung der vorliegenden Konstrukte betrifft. In empirischen Anwendungen ist es normalerweise besser zu versuchen, unsere Modelle unserer Theorie anzupassen, nicht umgekehrt. Auch hier sind die Bifaktor- / Zwei-Ebenen-Modelle in der Regel angemessen, da Sie alle möglichen Elemente einbeziehen und gleichzeitig die Mehrdimensionalität auf systematische und theoretisch wünschenswerte Weise berücksichtigen möchten.

Philchalmers
quelle
Vielen Dank! Wie messen Sie die empirische Zuverlässigkeit im IRT? Ist das dasselbe wie Information?
Behacad
θ^rxx=T/(T+E)θmirtfscores()sirtTAM
@ Philchalmers, pls werfen Sie einen Blick Frage, wenn Sie es beantworten können.
WhiteGirl