Ich bin gerade dabei, einen Fragebogen empirisch zu entwickeln, und werde in diesem Beispiel beliebige Zahlen verwenden, um dies zu veranschaulichen. Für den Kontext entwickle ich einen psychologischen Fragebogen, der darauf abzielt, Gedankenmuster zu bewerten, die häufig bei Menschen mit Angststörungen festgestellt werden. Ein Artikel könnte so aussehen: "Ich muss den Ofen wiederholt prüfen, weil ich nicht sicher bin, ob er ausgeschaltet ist. "
Ich habe 20 Fragen (5-Punkte-Likert), die sich aus einem oder zwei Faktoren zusammensetzen können. Ich bin bereit, ungefähr die Hälfte der Elemente zu löschen und 10 Fragen zu einem von zwei Faktoren zu hinterlassen.
Ich kenne mich mit exploratorischer Faktoranalyse (EFA), interner Konsistenz (Cronbachs Alpha) und Item-Kennlinien in der Item-Response-Theorie (IRT) aus. Ich kann sehen, wie ich eine dieser Methoden verwenden würde, um zu bestimmen, welche Elemente innerhalb einer einzelnen Skala "schlechter" sind. Ich schätze, dass jede Methode auch unterschiedliche Fragen beantwortet, obwohl sie zu ähnlichen Ergebnissen führen kann und ich nicht sicher bin, welche "Frage" am wichtigsten ist.
Bevor wir beginnen, vergewissern wir uns, dass ich weiß, was ich mit jeder dieser Methoden einzeln mache.
Mit EFA würde ich die Anzahl der Faktoren identifizieren und die Elemente entfernen, die den jeweiligen Faktor am wenigsten belasten (sagen wir <.30) oder die sich im Wesentlichen über mehrere Faktoren hinweg belasten.
Unter Verwendung der internen Konsistenz würde ich Elemente entfernen, die das schlechtere "Alpha, wenn Element gelöscht" haben. Ich könnte dies unter der Annahme eines Faktors in meiner Skala tun oder es nach einer anfänglichen EFA tun, um die Anzahl der Faktoren zu identifizieren und anschließend mein Alpha für jeden Faktor auszuführen.
Mit IRT entferne ich Elemente, die den interessierenden Faktor nicht in Bezug auf ihre Antwortoptionen (5 Likert) bewerten. Ich würde Artikelkennlinien mustern. Grundsätzlich würde ich nach einer Linie in einem 45-Grad-Winkel suchen, die von Option 1 auf der Likert-Skala bis zu 5 entlang der latenten Punktzahl reicht. Ich könnte dies unter der Annahme eines Faktors oder nach einer anfänglichen
EFA tun , um die Anzahl der Faktoren zu ermitteln, und anschließend die Kurven für jeden Faktor ausführen.
Ich bin mir nicht sicher, welche dieser Methoden ich verwenden soll, um die "schlechtesten" zu identifizieren. Ich verwende das Schlimmste im weitesten Sinne so, dass der Gegenstand für die Maßnahme nachteilig ist, entweder in Bezug auf die Zuverlässigkeit oder die Gültigkeit, die für mich beide gleich wichtig sind. Vermutlich kann ich sie zusammen verwenden, aber ich bin nicht sicher, wie.
Wenn ich mit dem, was ich jetzt weiß, weitermachen und mein Bestes geben würde, würde ich Folgendes tun:
- Führen Sie eine EFA durch, um die Anzahl der Faktoren zu ermitteln. Löschen Sie auch Elemente mit schlechten Ladevorgängen in Bezug auf ihre jeweiligen Faktoren, da ich keine Elemente möchte, die schlecht geladen sind, unabhängig davon, wie sie sich in anderen Analysen verhalten würden.
- Führen Sie eine IRT durch und entfernen Sie auch die nach dieser Analyse bewerteten fehlerhaften Elemente, falls noch solche von der EFA übrig sind.
- Melden Sie einfach Cronbachs Alpha und verwenden Sie diese Metrik nicht zum Löschen von Elementen.
Alle allgemeinen Richtlinien wäre sehr dankbar!
Hier finden Sie auch eine Liste spezifischer Fragen, die Sie möglicherweise beantworten können:
Was ist der praktische Unterschied zwischen dem Entfernen von Elementen basierend auf Faktorladungen und dem Entfernen von Elementen basierend auf Chronbachs Alpha (vorausgesetzt, Sie verwenden für beide Analysen dasselbe Faktorlayout)?
Was soll ich zuerst tun? Angenommen, ich mache EFA und IRT mit einem Faktor und beide identifizieren unterschiedliche Elemente, die entfernt werden sollen. Welche Analyse sollte Priorität haben?
Ich bin nicht fest entschlossen, all diese Analysen durchzuführen, obwohl ich Chronbachs Alpha trotzdem berichten werde. Ich habe das Gefühl, nur IRT zu machen, würde etwas vermissen lassen, und ebenso nur für EFA.
Antworten:
Ich habe keine Zitate, aber Folgendes würde ich vorschlagen:
Zeroth: Teilen Sie die Daten nach Möglichkeit in ein Trainings- und Test-Set auf.
Zuerst machen Sie EFA. Schauen Sie sich verschiedene Lösungen an, um herauszufinden, welche nach Ihren Kenntnissen der Fragen sinnvoll sind. Sie müssten dies vor Cronbachs Alpha tun, sonst wissen Sie nicht, welche Elemente in welchen Faktor eingehen. (Es ist wahrscheinlich keine gute Idee, alpha auf ALLEN Elementen auszuführen).
Führen Sie als Nächstes Alpha aus und löschen Sie Elemente, deren Korrelationen in den einzelnen Faktoren weitaus schlechter sind als die der anderen. Ich würde keine willkürliche Grenze festlegen, ich würde nach solchen Ausschau halten, die viel niedriger sind als die anderen. Prüfen Sie, ob das Löschen dieser Einträge sinnvoll ist.
Wählen Sie abschließend aus dem IRT Gegenstände mit verschiedenen Schwierigkeitsgraden aus.
Wenn möglich, wiederholen Sie dies auf dem Test-Set, ohne jedoch etwas zu erforschen. Das heißt, sehen Sie, wie gut das auf dem Trainingssatz gefundene Ergebnis auf dem Testsatz funktioniert.
quelle
Alle drei von Ihnen vorgeschlagenen Kriterien können tatsächlich im IRT durchgeführt werden, genauer gesagt im mehrdimensionalen IRT. Wenn Ihre Stichprobe ziemlich groß ist, ist dies wahrscheinlich eine konsequente Vorgehensweise für jede Subskala. Auf diese Weise können Sie die Vorteile von IRT nutzen, um Artikel unabhängig zu modellieren (unter Verwendung von Nominalmodellen für einige Artikel, verallgemeinerte Teilgutschriften oder abgestufte Modelle für andere Artikel, oder wenn möglich sogar Bewertungsskalen einrichten, um polytome Artikel sparsamer zu interpretieren).
Sie könnten versuchen, Elemente zu entfernen, die nicht den eindimensionalen Anforderungen der meisten IRT-Software entsprechen, aber ich würde dies nicht unbedingt empfehlen, wenn es die theoretische Darstellung der vorliegenden Konstrukte betrifft. In empirischen Anwendungen ist es normalerweise besser zu versuchen, unsere Modelle unserer Theorie anzupassen, nicht umgekehrt. Auch hier sind die Bifaktor- / Zwei-Ebenen-Modelle in der Regel angemessen, da Sie alle möglichen Elemente einbeziehen und gleichzeitig die Mehrdimensionalität auf systematische und theoretisch wünschenswerte Weise berücksichtigen möchten.
quelle
mirt
fscores()
sirt
TAM