Ich habe 400 Antworten auf einen 20-Punkte-Fragebogen, der vorgibt, ein Einstellungskonstrukt bei Medizinstudenten zu messen. Das Instrument wurde in den USA für ein einziges Jahr von Medizinstudenten validiert und die veröffentlichten Daten sind sehr "sauber" - alle RITC-Werte> 0,3, Alpha 0,84, PCA mit einer stabilen Vier-Faktor-Struktur usw. In meiner Stichprobe habe ich 5 von gefunden 20 Elemente mit einem RITC <0,2 und in einer kulturellen Subpopulation (n = 70) sind diese RITC-Werte Null / Negativ. Wenn ich alle Elemente behalte, laden diejenigen mit schlechtem RITC entweder keinen Faktor auf oder sortieren zusammen in einen Faktor mit zwei Elementen (Faktor 4). Ich gehe davon aus, dass (und möchte dies untersuchen) dies entweder auf (i) eine kleine kulturelle Subpopulation zurückzuführen ist, für die die Struktur möglicherweise schlecht erfasst wird. oder (ii) weil ich Antworten von Studenten in allen Phasen eines Programms habe und das Konstrukt einen Entwicklungsaspekt hat, der von den Skalenelementen schlecht erfasst wird. Gibt es einen statistischen Test, mit dem ich dies untersuchen kann?
Sollten Elemente mit ritc von der Skala gelöscht werden und wenn ja, mache ich dies nacheinander beginnend mit dem niedrigsten und an welchem Punkt sollte ich das Löschen von Elementen beenden / habe ich etwas aus dem Fragebogen verloren? Wie versuche ich dies, wenn ich die Faktorstruktur der Skala zwischen der Haupt- und der Nebensubpopulation vergleichen möchte, oder ist die Nebensubstichprobe zu klein, um Schlussfolgerungen zu ziehen? Alle Referenzen wäre sehr dankbar.
Schließlich besteht der Zweck der Validierung der Skala darin, die Wirksamkeit einer Intervention anhand eines Scores vor und nach der Intervention zu bestimmen. Wenn ein Gegenstand einen niedrigen RITC aufweist, kann dies vermutlich die Zuverlässigkeit der Skala in einer experimentellen Umgebung beeinträchtigen. oder bin ich falsch Gibt es eine statistische Möglichkeit, den Nutzen einer Skala zur Messung von Konstrukten zu bestimmen, die einen Entwicklungsaspekt haben, dh funktionieren alle Elemente angemessen, wenn der Schüler "mehr" des Einstellungskonstrukts entwickelt?
Antworten:
@suzi Eine der Eigenschaften, auf denen die Rasch-Analyse basiert, ist, dass Kennzahlen für Untergruppen unveränderlich sind. Diese Eigenschaft unterstützt die Entwicklung von computeradaptiven Tests und Testgleichungen. Wenn diese Maßinvarianz in einer Population zutrifft, gibt es keine Differential Item Functioning (DIF). Um Sie bei Ihrer Stichprobe zu unterstützen, können Sie für jede Untergruppe eine Rasch-Analyse durchführen und die Elementfunktion jedes Elements für jede Untergruppe vergleichen. Wenn sich die Artikelmaße um mehr als 0,50 Logs (oder mehr als die 95% -Konfidenzintervalle der Maße) unterscheiden, ist DIF vorhanden und der Artikel ist nicht invariant. Solange Ihre Untergruppen nicht weniger als 70 Themen haben, sollten Sie in Ordnung sein.
Ein ausgezeichnetes Papier zur Anwendung dieses Prinzips ist "Rasch-Fit-Statistik als Test der Invarianz von Artikelparameterschätzungen", Smith, Richard M. und Suh, Kyunghee, Journal of Applied Measurement 4 (2) 153-163.
Wie in den Kommentaren angegeben, ist dies ein großes Feld, und Sie benötigen möglicherweise Hilfe. Wenn ein Papier möglich ist, können Sie über die Rasch SIG Hilfe suchen . Software würde Winsteps, Facetten, RUMM, eRm und andere Programme in R enthalten.
Hoffe das hilft.
quelle