Ich gehe davon aus, dass Ihr Fragebogen als eine eindimensionale Skala zu betrachten ist (ansonsten macht Cronbachs Alpha wenig Sinn). Es lohnt sich, eine explorative Faktorenanalyse durchzuführen, um dies zu überprüfen. Außerdem können Sie sehen, wie sich die Artikel auf die Waage beziehen (dh durch ihre Beladung).
Grundlegende Schritte zur Validierung Ihrer Artikel und Ihrer Waage sollten Folgendes umfassen:
- einen vollständigen Bericht über die grundlegenden Statistiken der Elemente (Reichweite, Quartile, zentrale Tendenz, Decken- und Bodeneffekte, falls vorhanden);
- Überprüfen Sie die interne Konsistenz wie bei Ihrem Alpha (geben Sie am besten 95% -Konfidenzintervalle an, da dies stichprobenabhängig ist).
- Beschreiben Sie die zusammenfassende Messung (z. B. Gesamt- oder Durchschnittspunktzahl, auch als Skalenpunktzahl bezeichnet) mit üblichen Statistiken (Histogramm + Dichte, Quantile usw.).
- Überprüfen Sie Ihre zusammenfassenden Antworten auf bestimmte Kovariaten, von denen angenommen wird, dass sie sich auf das von Ihnen bewertete Konstrukt beziehen. Dies wird als Gültigkeit für bekannte Gruppen bezeichnet.
- Wenn möglich, überprüfen Sie Ihre zusammenfassenden Antworten auf bekannte Instrumente, die vorgeben, dass sie dasselbe Konstrukt messen ( gleichzeitige oder konvergente Gültigkeit).
Wenn Ihre Skala nicht eindimensional ist, müssen diese Schritte für jede Subskala ausgeführt werden. Sie können auch die Korrelationsmatrix Ihrer Faktoren herausrechnen, um die Faktorstruktur zweiter Ordnung zu bewerten (oder die Modellierung von Strukturgleichungen oder die Analyse von Bestätigungsfaktoren verwenden) irgendwas du willst). Sie können die Gültigkeit von Konvergenz und Diskriminanz auch mithilfe der Multi-Trait-Skalierung oder der Multi-Trait-Multi-Methoden-Modellierung (basierend auf Interitem-Korrelationen innerhalb und zwischen Skalen) oder auch mithilfe von SEMs bewerten.
Dann würde ich sagen, dass die Item-Response-Theorie nicht viel hilft, wenn Sie nicht daran interessiert sind, Ihren Fragebogen zu verkürzen, einige Items herauszufiltern, die die Funktion von Differential Items zeigen , oder Ihren Test in einer Art computeradaptivem Test zu verwenden .
In jedem Fall ist das Rasch-Modell für binäre Elemente. Bei polytom bestellten Artikeln sind die am häufigsten verwendeten Modelle:
- das abgestufte Reaktionsmodell
- das Teilkreditmodell
- das Bewertungsskalenmodell.
Nur die beiden letzteren stammen aus der Familie Rasch, und sie verwenden im Grunde genommen eine benachbarte Quotenformulierung mit der Idee, dass das Subjekt mehrere Schwellenwerte "überschreiten" muss, um eine bestimmte Antwortkategorie zu unterstützen. Der Unterschied zwischen diesen beiden Modellen besteht darin, dass das PCM nicht vorschreibt, dass die Schwellenwerte auf der Theta- Skala ( Fähigkeit oder Subjektposition auf der latenten Merkmalsskala) gleich verteilt sind. Das abgestufte Reaktionsmodell basiert auf einer kumulativen Quotenformulierung. Beachten Sie, dass diese Modelle alle davon ausgehen, dass der Maßstab eindimensional ist. dh es gibt nur ein latentes Merkmal. Es gibt zusätzliche Annahmen wie z. B. die lokale Unabhängigkeit (dh die Korrelationen zwischen den Antworten werden durch Variation der Fähigkeitsskala erklärt).
Auf jeden Fall finden Sie in Band 20 des Journal of Statistical Software: Special Volume: Psychometrics in R eine sehr vollständige Dokumentation und nützliche Hinweise zur Anwendung psychometrischer Methoden . Grundsätzlich sind die interessantesten R - Pakete , dass ich in meiner täglichen Arbeit verwenden sind: LTM , ERM , psych , psy . Auf andere wird in der CRAN-Task-Ansicht Psychometrics verwiesen . Andere interessante Quellen sind:
Eine gute Übersicht über die Verwendung von FA vs. IRT in der Skalenentwicklung findet sich in der Skalenkonstruktion und -bewertung in der Praxis: Eine Übersicht über die Anwendung der Faktoranalyse gegenüber der Item-Response-Theorie von zehn Holt et al. (Psychological Test and Assessment Modeling (2010) 52 (3): 272 & ndash; 297).
Die Validierung eines Fragebogens bedeutet, zu beweisen, dass er das misst, was er messen soll. Ich würde sagen, dies ist meist keine statistische Frage und kann nicht beantwortet werden, ohne den spezifischen Inhalt Ihres Fragebogens zu kennen. Bei Cronbach alpha geht es nicht um die Gültigkeit, sondern um die interne Konsistenz, die in gewisser Weise mit der Zuverlässigkeit zusammenhängt (oder man kann sagen, dass dies der Fall ist) Zuverlässigkeit, wenn Ihre Fragen austauschbar sind - aber nicht).
Was können Sie also tun, um Ihren Fragebogen zu validieren? Sie könnten untersuchen, welche psychologischen Prozesse zu bestimmten Ergebnismustern führen (z. B. indem Sie versuchen, solche Muster durch experimentelle Manipulationen hervorzurufen, oder indem Sie ein lautes Denkverfahren anwenden ["protocol analysis", Ericsson & Simon, 1992]). Oder vergleichen Sie einige kontrastierende Gruppen (z. B. Patienten mit Kontrollen), die unterschiedliche Werte aufweisen sollten. Oder korrelieren Sie es mit einem externen Kriterium, das mit der gemessenen Eigenschaft korreliert werden sollte. Oder messen Sie das Merkmal mit dem Psychoscope (TM) und verwenden Sie es als Kriterium.
Die anderen Antworten sind nützlicher, um aufzuzeigen, was Sie wahrscheinlich realistisch tun können - auch wenn sich das meiste streng genommen nicht auf die Gültigkeit bezieht (außer den Verweisen von Chi auf die "bekannte Gruppengültigkeit" und die externe Gültigkeit).
Siehe auch Markus & Borsboom (2013) für eine moderne Herangehensweise an die Gültigkeit (diese und einige andere nützliche Referenzen auf der Homepage von Borsboom ).
quelle