Gibt es einen statistischen Grund, warum die Artikelanalyse / Antworttheorie nicht weiter verbreitet ist? Wenn ein Lehrer beispielsweise einen Multiple-Choice-Test mit 25 Fragen durchführt und feststellt, dass 10 Fragen von allen richtig beantwortet wurden, wurden 10 Fragen von einem wirklich geringen Anteil (z. B. 10%) beantwortet und die restlichen 5 von etwa 50% der Personen beantwortet . Ist es nicht sinnvoll, die Punktzahlen neu zu gewichten, damit schwierige Fragen stärker gewichtet werden?
In der realen Welt werden bei Tests fast immer alle Fragen gleich gewichtet. Warum?
Unter dem folgenden Link werden Diskriminierungsindizes und andere Schwierigkeitsgrade für die Auswahl der besten Fragen erläutert: http://fcit.usf.edu/assessment/selected/responsec.html
Es scheint jedoch, dass die Methode zur Ermittlung des Diskriminierungsindex von Fragen nur zukunftsgerichtet angewendet wird (z. B. wenn eine Frage nicht gut diskriminiert, werfen Sie sie weg). Warum werden Tests für die aktuelle Population nicht neu gewichtet?
quelle
Ein erstes Argument hat mit Transparenz zu tun. @ rolando2 hat diesen Punkt bereits gemacht. Die Schüler möchten im Voraus wissen, wie viel jeder Gegenstand wert ist.
Ein zweites Argument ist, dass die Gewichte nicht nur den Schwierigkeitsgrad einer Frage widerspiegeln, sondern auch den Grad der Wichtigkeit, den der Ausbilder einer Frage beimisst. In der Tat ist das Ziel einer Prüfung das Testen und Zertifizieren von Kenntnissen und Kompetenzen. Daher müssen die Gewichte, die verschiedenen Fragen und Gegenständen zugeordnet werden, vom Lehrer im Voraus festgelegt werden. Sie sollten nicht vergessen, dass "alle Modelle falsch sind und nur einige nützlich sind". In diesem Fall kann man einige Zweifel an der Nützlichkeit haben.
Vor diesem Hintergrund denke ich, dass eine (mehr oder weniger ausgefallene) statistische Analyse für die Analyse der Ergebnisse nachträglich erfolgen könnte. Dort kann es einige interessante Einblicke geben. Ob dies getan wird und in welchem Maße es getan wird, hängt sicherlich von den statistischen Fähigkeiten des Lehrers ab.
quelle
Ich wollte eine Klarstellung bezüglich der ursprünglichen Frage machen. In der Item-Response-Theorie zeigt die Unterscheidung (dh Item-Steigung oder Faktorbelastung) keine Schwierigkeit an. Die Verwendung eines Modells, das eine unterschiedliche Unterscheidung für jeden Gegenstand ermöglicht, gewichtet sie effektiv nach ihrer geschätzten Korrelation mit der latenten Variablen, nicht nach ihrer Schwierigkeit.
Mit anderen Worten, ein schwierigerer Gegenstand könnte gewichtet werden, wenn er als ziemlich unkorreliert mit der interessierenden Dimension eingeschätzt wird, und umgekehrt. Ein einfacher Gegenstand könnte gewichtet werden, wenn er als stark korreliert eingeschätzt wird.
Ich stimme früheren Antworten zu, die auf (a) das mangelnde Bewusstsein der Praktiker für Methoden zur Beantwortung von Gegenständen hinweisen, (b) die Tatsache, dass die Verwendung dieser Modelle ein gewisses technisches Fachwissen erfordert, selbst wenn man sich ihrer Vorteile bewusst ist (insbesondere der Fähigkeit, die zu bewerten) Anpassung des Messmodells), (c) die Erwartungen des Schülers gemäß @ rolando2 und nicht zuletzt (d) die theoretischen Überlegungen, die Ausbilder möglicherweise haben, um verschiedene Gegenstände unterschiedlich zu gewichten. Ich wollte jedoch Folgendes erwähnen:
Nicht alle Modelle der Item-Response-Theorie erlauben eine Variation des Diskriminierungsparameters, wobei das Rasch-Modell wahrscheinlich das bekannteste Beispiel für ein Modell ist, bei dem die Diskriminierungen zwischen Items konstant gehalten werden. In der Rasch-Modellfamilie ist die Summenbewertung eine ausreichende Statistik für die Elementantwortbewertung, daher gibt es keinen Unterschied in der Reihenfolge der Befragten, und die einzigen praktischen Unterschiede werden erkannt, wenn die "Abstände" zwischen der Bewertung Gruppen werden berücksichtigt.
Es gibt Forscher, die die Verwendung der klassischen Testtheorie (die auf der traditionellen Verwendung von Summenwerten oder Durchschnittskorrekturen beruht) sowohl aus theoretischen als auch aus empirischen Gründen verteidigen. Das vielleicht am häufigsten verwendete Argument ist die Tatsache, dass die nach der Item-Response-Theorie generierten Scores den nach der klassischen Testtheorie erstellten tatsächlich sehr ähnlich sind. Siehe zum Beispiel die Arbeit von Xu & Stone (2011), Verwendung von IRT-Merkmalsschätzungen im Vergleich zu summierten Ergebnissen bei der Vorhersage von Ergebnissen , pädagogischen und psychologischen Messungen , wo sie Korrelationen über 0,97 unter einer Vielzahl von Bedingungen melden.
quelle
Sollte die Punktzahl eines Schülers nicht auf dem basieren, was er im Test weiß und beantwortet, und nicht auf dem, was alle anderen in der Klasse tun?
Wenn Sie den gleichen Test 2 verschiedene Jahre gegeben haben und 2 Schüler (jeweils 1) hatten, die genau die gleichen Fragen richtig beantworteten (ohne zu schummeln), ist es wirklich sinnvoll, dass sie je nach Anzahl der anderen Schüler unterschiedliche Noten erhalten würden ihre Klasse studiert?
Und ich persönlich möchte keinen Schülern die Motivation geben, ihre Klassenkameraden zu sabatieren, anstatt das Material selbst zu lernen.
Das IRT kann einen Einblick in den Test geben, aber ich würde ihn nicht verwenden, um die Ergebnisse aktiv zu gewichten.
Wenn ich an Gewichte denke, denke ich, dass jemand mehr Punkte bekommen sollte, um eine schwierige Frage richtig zu stellen, aber er sollte mehr Punkte verlieren, um eine einfache Frage falsch zu stellen. Kombinieren Sie diese und Sie erhalten immer noch die gleiche Gewichtung. Oder ich versuche tatsächlich, basierend auf der Zeit oder dem Aufwand, der für die Beantwortung der Frage erforderlich ist, zu gewichten, sodass jemand, der die Fragen in einer anderen Reihenfolge beantwortet, keinen Vorteil bei einem zeitgesteuerten Test hat.
quelle