Wie fange ich mit der Anwendung der Item-Response-Theorie an und welche Software soll verwendet werden?

21

Kontext

Ich habe über die Item-Response-Theorie gelesen und finde sie faszinierend. Ich glaube, ich verstehe die Grundlagen, aber ich frage mich, wie ich statistische Techniken anwenden soll, die sich auf das Gebiet beziehen. Im Folgenden finden Sie zwei Artikel, die dem Bereich ähnlich sind, in dem ich ITR anwenden möchte:

Die zweite möchte ich zum jetzigen Zeitpunkt noch erweitern.

Ich habe ein kostenloses Programm namens jMetrik heruntergeladen und es scheint großartig zu funktionieren. Ich denke, es ist vielleicht zu einfach, was das IRT betrifft, aber ich bin mir nicht sicher.

Ich weiß, dass der "beste" Weg wahrscheinlich darin besteht, R zu lernen. Ich weiß jedoch nicht, ob ich mir die Zeit nehmen kann, um diese Lernkurve in Angriff zu nehmen. Beachten Sie, dass wir etwas Geld für den Kauf von Software haben, aber meines Erachtens scheint es keine großartigen IRT-Programme zu geben.

Fragen

  • Was halten Sie von der Wirksamkeit von jMetrik?
  • Wie würden Sie vorschlagen, dass ich IRT beantrage?
  • Was sind die besten Programme für die Anwendung von IRT?
  • Benutzt einer von euch regelmäßig IRT? Wenn das so ist, wie?
Behacad
quelle
1
welche software benutzt du aktuell
StasK
Ich habe jMetrik verwendet. Es sieht ganz neu aus und hat viele Dinge gemacht, die mich interessieren!
Behacad
2
Funktioniert es in einem Skriptmodus? Wenn Sie nur eine grafische Benutzeroberfläche haben, sind Ihre Ergebnisse nur sehr schwer reproduzierbar. Ein Skriptmodus ist ein Muss für jede ernsthafte Software.
StasK

Antworten:

22

Als guter Einstieg in das IRT empfehle ich immer, eine visuelle Anleitung zur Item-Response-Theorie zu lesen .

Eine Übersicht der verfügbaren Software finden Sie auf www.rasch.org .

Aus meiner Erfahrung heraus fand ich den Raschtest (und die zugehörigen) Stata-Befehl (e) in den meisten Fällen, in denen ein Ein-Parameter-Modell angepasst werden soll, sehr nützlich. Für komplexere Designs kann auf GLLAMM zurückgegriffen werden . Es gibt ein gutes Arbeitsbeispiel, das auf De Boecks und Wilsons Buch Explanatory Item and Response Models (Springer, 2004) basiert .

Speziell zu R sind in den letzten fünf Jahren zahlreiche Pakete verfügbar geworden, z. B. die zugehörige CRAN- Task-Ansicht . Die meisten davon werden in einer Sonderausgabe des Journal of Statistical Software (Bd. 20, 2007) behandelt. Wie in einer anderen Antwort erläutert , können mit dem ltm und dem eRm eine Vielzahl von IRT-Modellen angepasst werden. Da sie sich auf unterschiedliche Schätzmethoden stützen ltm- den Randansatz und eRmden bedingten Ansatz verwenden - hängt die Auswahl des einen oder anderen Modells hauptsächlich von dem Modell ab, das Sie anpassen möchten (eRm passt nicht für 2- oder 3-Parameter-Modelle) und das Messziel, dem Sie folgen: Die bedingte Schätzung von Personenparametern hat einige nette psychometrische Eigenschaften, während Sie bei einem marginalen Ansatz leicht auf ein Mixed-Effects-Modell umsteigen können, wie in den folgenden beiden Abhandlungen erläutert :

Es gibt auch einige Möglichkeiten, Rasch-Modelle mit MCMC-Methoden anzupassen , siehe z. B. das MCMCpack- Paket (oder WinBUGS / JAGS , aber siehe BUGS-Code für Item Response Theory , JSS (2010) 36).

Ich habe keine Erfahrung mit SAS für die IRT-Modellierung, daher überlasse ich das jemandem, der sich mit SAS-Programmierung besser auskennt.

Andere spezielle Software (die hauptsächlich für die Beurteilung von Bildungseinrichtungen verwendet wird) sind: RUMM, Conquest, Winsteps, BILOG / MULTILOG, Mplus (ohne die Liste zu zitieren, die bereits auf Wikipedia verfügbar ist ). Keines ist kostenlos, aber für einige von ihnen wird eine zeitlich begrenzte Demoversion vorgeschlagen. Als ich es vor einem Jahr ausprobierte, fand ich jMetrik sehr eingeschränkt und alle Funktionen sind bereits in R verfügbar. Ebenso kann ConstructMap sicher durch lme4 ersetzt werden , wie im oben verlinkten Handout dargestellt. Ich sollte auch mdltm(Multidimensional Discrete Latent Trait Models) für gemischte Rasch-Modelle von Davier und Kollegen erwähnen , die dem Buch beiliegen sollenMultivariate und Mischungsverteilungs-Rasch-Modelle (Springer, 2007).

chl
quelle
Fantastisch! Vielen Dank für die sehr umfassende Antwort! Beide Antworten werden mir sehr helfen, und ich bin mir sicher, dass alle anderen, die neugierig sind, diesen Bereich zu verfolgen. Ich schlage vor, Sie werfen noch einmal einen Blick auf jMetrik und geben mir vielleicht Ihre Gedanken. Es hat jetzt Rasch-Modellierung, ICC-Kurven, einige IRT-Kurven, IRT-Gleichsetzung (1PT-, 2PT-, 3PT-Modelle) und mehr.
Behacad,
Ich werde mir die aktualisierte Version ansehen. Aber ehrlich gesagt ist das, was @Stask gesagt hat, es wert, sich zu erinnern, wenn Sie etwas Ernstes planen, das über die Parameterschätzung und die visuelle Berichterstellung hinausgeht. Um eine Vorstellung davon zu bekommen, was ich meine, schauen Sie sich Eine Einführung in die psychometrische Theorie mit Anwendungen in R an . (Es deckt mehr als nur das ab, was manche als "moderne" Psychometrie bezeichnen.)
chl
@chi - Ich habe beim Ausführen von IRT-Analysen in R mit ltm ganz andere Ergebnisse erzielt als beim Ausführen derselben Analyse in Mplus und dann in Multilog (wobei die Analysen in Mplus und Multilog identisch waren). Ich habe versucht, mit dem Autor von ltm herauszufinden, warum, aber keine Antworten erhalten. Haben Sie ähnliche Erfahrungen mit abweichenden Ergebnissen bei verschiedenen Softwarepaketen gemacht?
Tormod
ex5.5θp-βichich=1,,kp=1,,nβich-θpdas ist modelliert und die Schätzmethode (marginale vs. bedingte Wahrscheinlichkeit) und für 2+ Parametermodelle, ob die Schwellen zentriert sind oder nicht.
chl
@chi - Entschuldigung für die verspätete Antwort, ich habe Ihren Kommentar nicht bemerkt. Ich weiß nicht, ob dies immer noch relevant ist, aber ich habe Unterschiede zwischen 0,184 und 1,429 für die Unterscheidungsparameter (a). Zum Beispiel gab Mplus ein a = 5,084, während ltm dasselbe Item mit einem a = 3,655 ergab. Insgesamt gab es kleinere a's als mplus. (Das Ausführen der gleichen Analysen in Multilog ergab a's, die den a's von Mplus entsprachen). Die Bs waren ähnlicher.
Tormod
8

Zur ersten Frage habe ich keine Informationen über jMetrick.

Beim Anwenden von IRT besteht der erste Schritt (wie bei jedem anderen statistischen Verfahren) darin, es mit so vielen verschiedenen Arten von Daten wie möglich zu verwenden. Es gibt eine Lernkurve, aber ich glaube, dass es sich lohnt.

Ein wichtiges Merkmal des IRT ist die Unterscheidung zwischen Rasch-Modellen und IRT-Modellen. Sie wurden von verschiedenen Leuten für verschiedene Zwecke entwickelt. Davon abgesehen sind IRT-Modelle eine Obermenge von Rasch-Modellen.

Rasch-Modelle sind Ein-Parameter-Modelle - sie setzen voraus, dass alle Elemente eines Fragebogens das latente Merkmal gleichermaßen vorhersagen.

IRT-Modelle sind jedoch zwei Parametermodelle, mit denen sich die Fragen in ihrer Fähigkeit unterscheiden, Informationen über die Fähigkeit der Teilnehmer bereitzustellen.

Darüber hinaus gibt es drei Parametermodelle, die den IRT-Modellen ähneln, mit der Ausnahme, dass sie einen Schätzparameter zulassen, der den Teilnehmern die Möglichkeit gibt, zufällig die richtige Antwort zu erhalten (dies ist eher ein Problem bei Fähigkeitstests als bei Persönlichkeitstests).

Darüber hinaus gibt es ein mehrdimensionales IRT, mit dem mehrere latente Fähigkeiten gleichzeitig geschätzt werden. Ich weiß nicht viel darüber, aber es ist ein Bereich, in dem ich mehr lernen möchte.

Es gibt auch einen Unterschied zwischen dichotomen und polytomen IRT-Methoden. Dichotome IRT-Modelle sind solche, die in Fähigkeitstests verwendet werden und die eine richtige und eine falsche Antwort haben. Polytome IRT-Modelle werden in Persönlichkeitstests verwendet, bei denen es mehrere Antworten gibt, die gleichermaßen richtig sind (in dem Sinne, dass es keine richtige Antwort gibt).

Ich persönlich benutze R für die Item-Response-Theorie. Ich habe zwei Hauptpakete verwendet, eRmdie nur für Rasch-Modelle und für Modelle ltmder Item-Response-Theorie (Modelle mit zwei und drei Parametern) geeignet sind. Beide verfügen über ähnliche Funktionen und bieten mehr Routinen für dichotome IRT-Modelle. Ich weiß nicht, ob R das "Beste" für IRT ist, es sind nicht alle IRT-Modelle verfügbar, aber es ist sicherlich das erweiterbarste, da man diese Modelle relativ einfach programmieren kann.

Ich verwende IRT fast ausschließlich für polytome Modelle. In R beginne ich normalerweise mit nicht parametrischen IRT-Methoden (im Paket enthalten mokken), um die Annahmen zu testen, und fahre dann mit einem Rasch-Modell fort, wobei ich je nach Bedarf mehr Komplexität hinzufüge, um eine gute Anpassung zu erzielen.

Für mehrdimensionales IRT gibt es das Paket "mirt", das diese Funktionalität bietet. Ich habe es nicht benutzt und kann es nicht wirklich kommentieren.

Wenn Sie diese Pakete in R installieren und die Funktion "Vignette (" Paketname ")" aufrufen, sollten Sie einige nützliche Vignetten (auf jeden Fall für eRmund mokkenmöglicherweise für die anderen) erhalten, die sich für Sie als nützlich erweisen können (abhängig von Ihrem Sprachniveau) mathematische Raffinesse).

Schließlich gibt es eine Reihe guter Bücher für Rasch- und Eirt-Modelle. Die Item-Response-Theorie für Psychologen wird oft verwendet (obwohl mir der Stil nicht gefiel), und weiter oben in der technischen Entwicklungskette gibt es zwei äußerst umfassende und nützliche Lehrbücher - das Handbuch der modernen Item-Response-Theorie und Rasch-Modelle: Foundations, Recent Entwicklungen und Anwendungen .

Ich hoffe das hilft.

richiemorrisroe
quelle
Vielen Dank! Das wird sehr geschätzt. Ich würde auch gerne mehr über Softwareoptionen erfahren, wenn jemand Kenntnisse in diesem Bereich hat.
Behacad
3

jMetrik ist mächtiger als Sie vielleicht denken. Es ist für die operative Arbeit konzipiert, bei der Forscher mehrere Verfahren in einem einheitlichen Rahmen benötigen. Derzeit können Sie IRT-Parameter für die Modelle Rasch, Teilkredit und Ratingskala schätzen. Es ermöglicht auch die Verknüpfung von IRT-Maßstäben über Stocking-Lord, Haebara und andere Methoden. Da es eine integrierte Datenbank enthält, kann die Ausgabe der IRT-Schätzung für die Skalenverknüpfung verwendet werden, ohne dass Datendateien neu gestaltet werden müssen. Darüber hinaus können alle Ausgaben in der Datenbank gespeichert werden, um sie mit anderen Methoden in jMetrik oder mit externen Programmen wie R zu verwenden.

Sie können es auch mit Skripten anstelle der GUI ausführen. Mit dem folgenden Code werden beispielsweise (a) Daten in die Datenbank importiert, (b) Elemente mit einem Antwortschlüssel bewertet, (c) Rasch-Modellparameter geschätzt und (d) Daten als CSV-Datei exportiert. Sie können die endgültige Ausgabedatei als Eingabe für die weitere Analyse in R verwenden oder R verwenden, um eine direkte Verbindung zur jMetrik-Datenbank herzustellen und mit den Ergebnissen zu arbeiten.

#import data into database
import{
     delimiter(comma);
     header(included);
     options(display);
     description();
     file(C:/exam1-raw-data.txt);
     data(db = testdb1, table = EXAM1);
}

#conduct item scoring with the answer key
scoring{
     data(db = mydb, table = exam1);
     keys(4);
     key1(options=(A,B,C,D), scores=(1,0,0,0), variables=  (item1,item9,item12,item15,item19,item21,item22,item28,item29,item30,item34,item38,item42,item52,item55));
     key2(options=(A,B,C,D), scores=(0,1,0,0), variables=(item4,item6,item16,item18,item24,item26,item32,item33,item35,item43,item44,item47,item50,item54));
     key3(options=(A,B,C,D), scores=(0,0,1,0), variables=(item3,item5,item7,item11,item14,item20,item23,item25,item31,item40,item45,item48,item49,item53));
     key4(options=(A,B,C,D), scores=(0,0,0,1), variables=(item2,item8,item10,item13,item17,item27,item36,item37,item39,item41,item46,item51,item56));
}

#Run a Rasch models analysis.
#Item parameters saved as database table named exam1_rasch_output
#Residuals saved as a databse table named exam1_rasch_resid
#Person estimates saved to original data table. Person estimate in variable called "theta"
rasch{
     center(items);
     missing(ignore);
     person(rsave, pfit, psave);
     item(isave);
     adjust(0.3);
     itemout(EXAM1_RASCH_OUTPUT);
     residout(EXAM1_RASCH_RESID);
     variables(item1, item2, item3, item4, item5, item6, item7, item8, item9, item10, item11, item12, item13, item14, item15, item16, item17, item18, item19, item20, item21, item22, item23, item24, item25, item26, item27, item28, item29, item30, item31, item32, item33, item34, item35, item36, item37, item38, item39, item40, item41, item42, item43, item44, item45, item46, item47, item48, item49, item50, item51, item52, item53, item54, item55, item56);
     transform(scale = 1.0, precision = 4, intercept = 0.0);
     gupdate(maxiter = 150, converge = 0.005);
     data(db = testdb1, table = EXAM1);
}

#Export output table for use in another program like R
export{
     delimiter(comma);
     header(included);
     options();
     file(C:/EXAM1_RASCH_OUTPUT.txt);
     data(db = testdb1, table = EXAM1_RASCH_OUTPUT);
}

Die Software befindet sich noch in einem frühen Entwicklungsstadium. Momentan füge ich explorative Faktorenanalyse und erweiterte Item-Response-Modelle hinzu. Im Gegensatz zu vielen anderen IRT-Programmen ist jMetrik Open Source. Alle Messverfahren verwenden die Psychometrics-Bibliothek, die derzeit auf GitHub unter https://github.com/meyerjp3/psychometrics verfügbar ist . Jeder, der Interesse hat, einen Beitrag zu leisten, ist willkommen.

meyerjp3
quelle
0

Sie haben hier eine ziemlich breite Liste von Fragen, die aber für viele Forscher von Bedeutung sind!

Ich kann Ihnen nur empfehlen, das IRT zu nutzen, wenn Ihre Situation den Anforderungen entspricht. Zum Beispiel passt es gut zu den Testarten, die Sie verwenden, und wahrscheinlich am wichtigsten, dass Sie über die erforderlichen Stichprobengrößen verfügen. Für dichotome Multiple-Choice-Daten empfehle ich das 3PL-Modell (das Rasch-Argument der "objektiven Messung" ist auffallend wenig überzeugend) und 500-1000 ist im Allgemeinen die minimale Stichprobengröße. Dichotome Daten ohne Vermutung, wie zum Beispiel psychologische Umfragen, bei denen Y / N-Antworten auf Aussagen vorliegen, funktionieren mit dem 2PL gut. Wenn Sie über eine Ratingskala oder Teilkreditdaten verfügen, gibt es polytome Modelle, die speziell für diese Situationen entwickelt wurden.

Meiner Meinung nach ist Xcalibre das beste Programm für die Anwendung von IRT. Es ist relativ benutzerfreundlich (einfache Benutzeroberfläche sowie einige Befehlszeilen-Stapelverarbeitungstypen, falls Sie dies aus irgendeinem Grund wünschen) und erzeugt eine gut lesbare Ausgabe (MS Word-Berichte mit umfangreichen Tabellen und Abbildungen). Ich empfehle die Verwendung von R aus den entgegengesetzten Gründen. Der Nachteil ist natürlich, dass es nicht kostenlos ist, aber Sie neigen dazu, das zu bekommen, wofür Sie bezahlen, wie sie sagen. Eine vollständige Beschreibung, Beispielausgaben und eine kostenlose Testversion finden Sie unter www.assess.com .

Äneas
quelle
Möchten Sie näher erläutern, warum das Argument "objektive Messung" sensu Rasch (oder genauer die Möglichkeit spezifischer objektiver Vergleiche) "auffallend wenig überzeugend" ist?
Momo