Kontext
Ich habe über die Item-Response-Theorie gelesen und finde sie faszinierend. Ich glaube, ich verstehe die Grundlagen, aber ich frage mich, wie ich statistische Techniken anwenden soll, die sich auf das Gebiet beziehen. Im Folgenden finden Sie zwei Artikel, die dem Bereich ähnlich sind, in dem ich ITR anwenden möchte:
Die zweite möchte ich zum jetzigen Zeitpunkt noch erweitern.
Ich habe ein kostenloses Programm namens jMetrik heruntergeladen und es scheint großartig zu funktionieren. Ich denke, es ist vielleicht zu einfach, was das IRT betrifft, aber ich bin mir nicht sicher.
Ich weiß, dass der "beste" Weg wahrscheinlich darin besteht, R zu lernen. Ich weiß jedoch nicht, ob ich mir die Zeit nehmen kann, um diese Lernkurve in Angriff zu nehmen. Beachten Sie, dass wir etwas Geld für den Kauf von Software haben, aber meines Erachtens scheint es keine großartigen IRT-Programme zu geben.
Fragen
- Was halten Sie von der Wirksamkeit von jMetrik?
- Wie würden Sie vorschlagen, dass ich IRT beantrage?
- Was sind die besten Programme für die Anwendung von IRT?
- Benutzt einer von euch regelmäßig IRT? Wenn das so ist, wie?
quelle
Antworten:
Als guter Einstieg in das IRT empfehle ich immer, eine visuelle Anleitung zur Item-Response-Theorie zu lesen .
Eine Übersicht der verfügbaren Software finden Sie auf www.rasch.org .
Aus meiner Erfahrung heraus fand ich den Raschtest (und die zugehörigen) Stata-Befehl (e) in den meisten Fällen, in denen ein Ein-Parameter-Modell angepasst werden soll, sehr nützlich. Für komplexere Designs kann auf GLLAMM zurückgegriffen werden . Es gibt ein gutes Arbeitsbeispiel, das auf De Boecks und Wilsons Buch Explanatory Item and Response Models (Springer, 2004) basiert .
Speziell zu R sind in den letzten fünf Jahren zahlreiche Pakete verfügbar geworden, z. B. die zugehörige CRAN- Task-Ansicht . Die meisten davon werden in einer Sonderausgabe des Journal of Statistical Software (Bd. 20, 2007) behandelt. Wie in einer anderen Antwort erläutert , können mit dem ltm und dem eRm eine Vielzahl von IRT-Modellen angepasst werden. Da sie sich auf unterschiedliche Schätzmethoden stützen
ltm
- den Randansatz undeRm
den bedingten Ansatz verwenden - hängt die Auswahl des einen oder anderen Modells hauptsächlich von dem Modell ab, das Sie anpassen möchten (eRm
passt nicht für 2- oder 3-Parameter-Modelle) und das Messziel, dem Sie folgen: Die bedingte Schätzung von Personenparametern hat einige nette psychometrische Eigenschaften, während Sie bei einem marginalen Ansatz leicht auf ein Mixed-Effects-Modell umsteigen können, wie in den folgenden beiden Abhandlungen erläutert :Es gibt auch einige Möglichkeiten, Rasch-Modelle mit MCMC-Methoden anzupassen , siehe z. B. das MCMCpack- Paket (oder WinBUGS / JAGS , aber siehe BUGS-Code für Item Response Theory , JSS (2010) 36).
Ich habe keine Erfahrung mit SAS für die IRT-Modellierung, daher überlasse ich das jemandem, der sich mit SAS-Programmierung besser auskennt.
Andere spezielle Software (die hauptsächlich für die Beurteilung von Bildungseinrichtungen verwendet wird) sind: RUMM, Conquest, Winsteps, BILOG / MULTILOG, Mplus (ohne die Liste zu zitieren, die bereits auf Wikipedia verfügbar ist ). Keines ist kostenlos, aber für einige von ihnen wird eine zeitlich begrenzte Demoversion vorgeschlagen. Als ich es vor einem Jahr ausprobierte, fand ich jMetrik sehr eingeschränkt und alle Funktionen sind bereits in R verfügbar. Ebenso kann ConstructMap sicher durch lme4 ersetzt werden , wie im oben verlinkten Handout dargestellt. Ich sollte auch
mdltm
(Multidimensional Discrete Latent Trait Models) für gemischte Rasch-Modelle von Davier und Kollegen erwähnen , die dem Buch beiliegen sollenMultivariate und Mischungsverteilungs-Rasch-Modelle (Springer, 2007).quelle
ex5.5
Zur ersten Frage habe ich keine Informationen über jMetrick.
Beim Anwenden von IRT besteht der erste Schritt (wie bei jedem anderen statistischen Verfahren) darin, es mit so vielen verschiedenen Arten von Daten wie möglich zu verwenden. Es gibt eine Lernkurve, aber ich glaube, dass es sich lohnt.
Ein wichtiges Merkmal des IRT ist die Unterscheidung zwischen Rasch-Modellen und IRT-Modellen. Sie wurden von verschiedenen Leuten für verschiedene Zwecke entwickelt. Davon abgesehen sind IRT-Modelle eine Obermenge von Rasch-Modellen.
Rasch-Modelle sind Ein-Parameter-Modelle - sie setzen voraus, dass alle Elemente eines Fragebogens das latente Merkmal gleichermaßen vorhersagen.
IRT-Modelle sind jedoch zwei Parametermodelle, mit denen sich die Fragen in ihrer Fähigkeit unterscheiden, Informationen über die Fähigkeit der Teilnehmer bereitzustellen.
Darüber hinaus gibt es drei Parametermodelle, die den IRT-Modellen ähneln, mit der Ausnahme, dass sie einen Schätzparameter zulassen, der den Teilnehmern die Möglichkeit gibt, zufällig die richtige Antwort zu erhalten (dies ist eher ein Problem bei Fähigkeitstests als bei Persönlichkeitstests).
Darüber hinaus gibt es ein mehrdimensionales IRT, mit dem mehrere latente Fähigkeiten gleichzeitig geschätzt werden. Ich weiß nicht viel darüber, aber es ist ein Bereich, in dem ich mehr lernen möchte.
Es gibt auch einen Unterschied zwischen dichotomen und polytomen IRT-Methoden. Dichotome IRT-Modelle sind solche, die in Fähigkeitstests verwendet werden und die eine richtige und eine falsche Antwort haben. Polytome IRT-Modelle werden in Persönlichkeitstests verwendet, bei denen es mehrere Antworten gibt, die gleichermaßen richtig sind (in dem Sinne, dass es keine richtige Antwort gibt).
Ich persönlich benutze R für die Item-Response-Theorie. Ich habe zwei Hauptpakete verwendet,
eRm
die nur für Rasch-Modelle und für Modelleltm
der Item-Response-Theorie (Modelle mit zwei und drei Parametern) geeignet sind. Beide verfügen über ähnliche Funktionen und bieten mehr Routinen für dichotome IRT-Modelle. Ich weiß nicht, ob R das "Beste" für IRT ist, es sind nicht alle IRT-Modelle verfügbar, aber es ist sicherlich das erweiterbarste, da man diese Modelle relativ einfach programmieren kann.Ich verwende IRT fast ausschließlich für polytome Modelle. In R beginne ich normalerweise mit nicht parametrischen IRT-Methoden (im Paket enthalten
mokken
), um die Annahmen zu testen, und fahre dann mit einem Rasch-Modell fort, wobei ich je nach Bedarf mehr Komplexität hinzufüge, um eine gute Anpassung zu erzielen.Für mehrdimensionales IRT gibt es das Paket "mirt", das diese Funktionalität bietet. Ich habe es nicht benutzt und kann es nicht wirklich kommentieren.
Wenn Sie diese Pakete in R installieren und die Funktion "Vignette (" Paketname ")" aufrufen, sollten Sie einige nützliche Vignetten (auf jeden Fall für
eRm
undmokken
möglicherweise für die anderen) erhalten, die sich für Sie als nützlich erweisen können (abhängig von Ihrem Sprachniveau) mathematische Raffinesse).Schließlich gibt es eine Reihe guter Bücher für Rasch- und Eirt-Modelle. Die Item-Response-Theorie für Psychologen wird oft verwendet (obwohl mir der Stil nicht gefiel), und weiter oben in der technischen Entwicklungskette gibt es zwei äußerst umfassende und nützliche Lehrbücher - das Handbuch der modernen Item-Response-Theorie und Rasch-Modelle: Foundations, Recent Entwicklungen und Anwendungen .
Ich hoffe das hilft.
quelle
jMetrik ist mächtiger als Sie vielleicht denken. Es ist für die operative Arbeit konzipiert, bei der Forscher mehrere Verfahren in einem einheitlichen Rahmen benötigen. Derzeit können Sie IRT-Parameter für die Modelle Rasch, Teilkredit und Ratingskala schätzen. Es ermöglicht auch die Verknüpfung von IRT-Maßstäben über Stocking-Lord, Haebara und andere Methoden. Da es eine integrierte Datenbank enthält, kann die Ausgabe der IRT-Schätzung für die Skalenverknüpfung verwendet werden, ohne dass Datendateien neu gestaltet werden müssen. Darüber hinaus können alle Ausgaben in der Datenbank gespeichert werden, um sie mit anderen Methoden in jMetrik oder mit externen Programmen wie R zu verwenden.
Sie können es auch mit Skripten anstelle der GUI ausführen. Mit dem folgenden Code werden beispielsweise (a) Daten in die Datenbank importiert, (b) Elemente mit einem Antwortschlüssel bewertet, (c) Rasch-Modellparameter geschätzt und (d) Daten als CSV-Datei exportiert. Sie können die endgültige Ausgabedatei als Eingabe für die weitere Analyse in R verwenden oder R verwenden, um eine direkte Verbindung zur jMetrik-Datenbank herzustellen und mit den Ergebnissen zu arbeiten.
Die Software befindet sich noch in einem frühen Entwicklungsstadium. Momentan füge ich explorative Faktorenanalyse und erweiterte Item-Response-Modelle hinzu. Im Gegensatz zu vielen anderen IRT-Programmen ist jMetrik Open Source. Alle Messverfahren verwenden die Psychometrics-Bibliothek, die derzeit auf GitHub unter https://github.com/meyerjp3/psychometrics verfügbar ist . Jeder, der Interesse hat, einen Beitrag zu leisten, ist willkommen.
quelle
Sie haben hier eine ziemlich breite Liste von Fragen, die aber für viele Forscher von Bedeutung sind!
Ich kann Ihnen nur empfehlen, das IRT zu nutzen, wenn Ihre Situation den Anforderungen entspricht. Zum Beispiel passt es gut zu den Testarten, die Sie verwenden, und wahrscheinlich am wichtigsten, dass Sie über die erforderlichen Stichprobengrößen verfügen. Für dichotome Multiple-Choice-Daten empfehle ich das 3PL-Modell (das Rasch-Argument der "objektiven Messung" ist auffallend wenig überzeugend) und 500-1000 ist im Allgemeinen die minimale Stichprobengröße. Dichotome Daten ohne Vermutung, wie zum Beispiel psychologische Umfragen, bei denen Y / N-Antworten auf Aussagen vorliegen, funktionieren mit dem 2PL gut. Wenn Sie über eine Ratingskala oder Teilkreditdaten verfügen, gibt es polytome Modelle, die speziell für diese Situationen entwickelt wurden.
Meiner Meinung nach ist Xcalibre das beste Programm für die Anwendung von IRT. Es ist relativ benutzerfreundlich (einfache Benutzeroberfläche sowie einige Befehlszeilen-Stapelverarbeitungstypen, falls Sie dies aus irgendeinem Grund wünschen) und erzeugt eine gut lesbare Ausgabe (MS Word-Berichte mit umfangreichen Tabellen und Abbildungen). Ich empfehle die Verwendung von R aus den entgegengesetzten Gründen. Der Nachteil ist natürlich, dass es nicht kostenlos ist, aber Sie neigen dazu, das zu bekommen, wofür Sie bezahlen, wie sie sagen. Eine vollständige Beschreibung, Beispielausgaben und eine kostenlose Testversion finden Sie unter www.assess.com .
quelle
Inzwischen ist ein neues Buch von Frank Baker, Bäcker Frank B., Seock-Ho Kim erschienen. Grundlagen der Item-Response-Theorie mit R. Springer International Publishing (2017) . Es werden keine R-Pakete verwendet, sondern Snippets angeboten.
Eine (überfüllte) Liste von R-Paketen für IRT mit einer kurzen Beschreibung ist auf CRAN verfügbar .
quelle