Rund 600 Studierende haben eine Punktzahl für ein umfangreiches Assessment, bei dem von einer guten Zuverlässigkeit / Validität ausgegangen werden kann. Die Bewertung wird mit 100 Punkten bewertet, und es handelt sich um einen vom Computer bewerteten Multiple-Choice-Test.
Diese 600 Schüler haben auch Punkte für eine zweite, kleinere Bewertung. In diesem zweiten Teil der Bewertung werden sie in elf Kohorten mit elf verschiedenen Benotungsgruppen eingeteilt, und es gibt unerwünscht große Unterschiede zwischen den Benotungsgruppen in Bezug auf ihre „Großzügigkeit“ bei der Benotung oder deren Fehlen. Diese zweite Bewertung wird ebenfalls mit 100 Punkten bewertet.
Die Schüler wurden nicht zufällig in Kohorten eingeteilt, und es gibt gute Gründe, Unterschiede in den Qualifikationsniveaus zwischen den Kohorten zu erwarten.
Ich habe die Aufgabe, sicherzustellen, dass Unterschiede zwischen Kohortenmarkern bei der zweiten Aufgabe die einzelnen Schüler nicht materiell benachteiligen.
Meine Idee ist es, die Kohorten-Scores bei der zweiten Bewertung mit den Kohorten-Scores bei der ersten Bewertung in Einklang zu bringen und dabei die individuellen Unterschiede innerhalb der Kohorten beizubehalten. Wir sollten davon ausgehen, dass ich guten Grund zu der Annahme habe, dass die Leistung beider Aufgaben in hohem Maße miteinander korreliert, die Marker sich jedoch in ihrer Großzügigkeit erheblich unterscheiden.
Ist das der beste Ansatz? Wenn nicht, was ist das?
Es wäre sehr dankbar, wenn der Antwortende einige praktische Tipps zur Implementierung einer guten Lösung geben könnte, z. B. in R oder SPSS oder Excel.
quelle
Antworten:
Zu wissen , wie Sortierer unterscheiden ist gut, aber immer noch nicht , dass Ihnen nicht sagen , was die Noten kompensieren zu . Stellen Sie sich der Einfachheit halber nur zwei Sortierer vor. Selbst wenn wir zu dem Schluss kommen, dass Grader 1 durchweg 5 Punkte großzügiger ist als Grader 2, sagt das nichts darüber aus, was Sie mit zwei Schülern machen sollen, die jeweils die Note 70 hatten, einer nach Grader 1 und einer nach Grader 2. Sagen wir, dass Grader 2 War es ein harter Marker, und erhöhen Sie diese 70 auf 75, während Sie die 70 von Grader 1 unverändert lassen? Oder gehen wir davon aus, dass Grader 1 übermäßig nachsichtig war, seinen Schüler auf 65 Punkte zurückstieß und die 70er von Grader 2 unverändert ließ? Gehen wir auf halbem Weg Kompromisse ein - auf Ihren Fall bezogen auf einen Durchschnitt der 11 Schulabgänger? Auf die absoluten Noten kommt es an, daher reicht es nicht aus, die relative Großzügigkeit zu kennen.
Ihre Schlussfolgerung kann davon abhängen, wie "objektiv" Sie die endgültige absolute Note finden sollten. Ein mentales Modell wäre, jedem Schüler eine "richtige" Note vorzuschlagen - diejenige, die der leitende Assessor vergeben würde, wenn er Zeit hätte, jede Arbeit einzeln zu bewerten - zu der die beobachteten Noten Näherungswerte sind. In diesem Modell müssen beobachtete Noten für ihre Benotung kompensiert werden, um sie so nah wie möglich an ihre unbeobachtete "wahre" Note heranzuführen. Ein anderes Modell könnte sein, dass jede Bewertung subjektiv ist und wir versuchen, jede beobachtete Note in die Note umzuwandeln, die wir vorhergesagt haben, wenn alle Bewerter das gleiche Papier in Betracht gezogen und eine Art Kompromiss oder Durchschnittsnote dafür erreicht hätten. Ich finde das zweite Modell als Lösung weniger überzeugend, auch wenn die Einräumung von Subjektivität realistischer ist. In einem Bildungsumfeld gibt es normalerweise jemanden, der letztendlich die Verantwortung für die Bewertung trägt, um sicherzustellen, dass die Schüler "die Note erhalten, die sie verdienen", aber diese Führungsrolle hat im Wesentlichen die Verantwortung gegenüber denjenigen Gradern freigesprochen, von denen wir bereits wissen, dass sie nicht einverstanden sind. Ab hier gehe ich davon ausist eine "richtige" Note, die wir schätzen wollen, aber dies ist eine anfechtbare Aussage und passt möglicherweise nicht zu Ihren Umständen.
Angenommen, die Schüler A, B, C und D, die sich alle in derselben Kohorte befinden, "sollten" mit 75, 80, 85 bzw. 90 bewertet werden, aber ihre großzügige Benotung bewertet sie durchweg mit 5 zu hoch. Wir beobachten 80, 85, 90 und 95 und sollten 5 subtrahieren, aber es ist problematisch, die zu subtrahierende Zahl zu finden. Dies kann nicht durch Vergleichen der Ergebnisse zwischen Kohorten erreicht werden, da wir davon ausgehen, dass Kohorten unterschiedliche durchschnittliche Fähigkeiten aufweisen. Eine Möglichkeit besteht darin, die Multiple-Choice-Testergebnisse zu verwenden, um die korrekten Ergebnisse für die zweite Aufgabe vorherzusagen, und diese dann zu verwenden, um die Abweichungen zwischen den einzelnen Sortierern und den korrekten Noten zu bewerten. Diese Vorhersage ist jedoch nicht trivial. Wenn Sie einen unterschiedlichen Mittelwert und eine unterschiedliche Standardabweichung zwischen den beiden Bewertungen erwarten, können Sie nicht einfach davon ausgehen, dass die zweite Bewertungsstufe mit der ersten übereinstimmt.
Außerdem unterscheiden sich die Studierenden in der relativen Eignung für Multiple-Choice- und schriftliche Bewertungen. Sie können dies als eine Art Zufallseffekt behandeln, der Bestandteil der "beobachteten" und "wahren" Noten des Schülers ist, jedoch nicht durch die "vorhergesagte" Note erfasst wird. Wenn sich Kohorten systematisch unterscheiden und die Schüler einer Kohorte in der Regel ähnlich sind, sollten wir nicht erwarten, dass dieser Effekt innerhalb jeder Kohorte auf Null gemittelt wird. Wenn die beobachteten Noten einer Kohorte im Durchschnitt +5 gegenüber den vorhergesagten Noten liegen, ist dies unmöglichum festzustellen, ob dies auf eine großzügige Benotung zurückzuführen ist, eine Kohorte, die für eine schriftliche Beurteilung besonders gut geeignet ist, als Multiple-Choice oder eine Kombination aus beiden. Im Extremfall kann die Kohorte bei der zweiten Bewertung sogar eine geringere Eignung aufweisen, was jedoch von einem sehr großzügigen Bewerter mehr als ausgeglichen wurde - oder umgekehrt. Sie können das nicht auseinander brechen. Es ist verwirrt.
Ich bezweifle auch die Angemessenheit eines solchen einfachen additiven Modells für Ihre Daten. Die Grader unterscheiden sich möglicherweise nicht nur durch die Ortsverschiebung, sondern auch durch die Streuung vom Hauptassessor. Da Kohorten jedoch wahrscheinlich in ihrer Homogenität variieren, können Sie die Streuung der beobachteten Noten in jeder Kohorte nicht einfach überprüfen, um dies zu erkennen. Darüber hinaus weist der Großteil der Verteilung hohe Punktzahlen auf, die ziemlich nahe am theoretischen Maximum von 100 liegen. Ich würde mir vorstellen, dass dies zu einer Nichtlinearität aufgrund der Komprimierung in der Nähe des Maximums führt - ein sehr großzügiger Grader kann A-, B-, C- und D-Noten wie geben 85, 90, 94, 97. Dies ist schwieriger umzukehren, als nur eine Konstante zu subtrahieren. Schlimmer noch, Sie könnten "Clipping" sehen - ein extrem großzügiger Grader kann sie mit 90, 95, 100, 100 einstufen. Dies ist unmöglich Informationen über die relative Leistung von C und D gehen unwiederbringlich verloren.
Ihre Grader verhalten sich sehr unterschiedlich. Sind Sie sicher, dass sie sich eher in ihrer generellen Großzügigkeit als in ihrer Großzügigkeit in verschiedenen Bestandteilen der Bewertung unterscheiden? Dies könnte eine Überprüfung wert sein, da es zu verschiedenen Komplikationen kommen kann - z. B. kann die beobachtete Note für B schlechter sein als die für A, obwohl B 5 Punkte "besser" ist, selbst wenn die vom Grader für jede Komponente zugewiesenen Noten eine monoton ansteigende Funktion sind des Hauptassessors! Angenommen, die Bewertung wird zwischen Q1 (A sollte 30/50, B 45/50 erzielen) und Q2 (A sollte 45/50, B 35/50 erzielen) aufgeteilt. Stellen Sie sich vor, der Grader ist in Q1 sehr nachsichtig (beobachtete Noten: A 40/50, B 50/50), aber in Q2 hart (beobachtet: A 42/50, 30/50), dann beobachten wir Gesamtwerte von 82 für A und 80 für B. Wenn Sie Komponentenbewertungen berücksichtigen müssen,
Dies ist wahrscheinlich eher ein ausführlicher Kommentar als eine Antwort, in dem Sinne, dass er keine bestimmte Lösung innerhalb der ursprünglichen Grenzen Ihres Problems vorschlägt. Aber wenn Ihre Sortierer bereits ungefähr 55 Papiere pro Stück verarbeiten, ist es dann für sie so schlimm, sich fünf oder zehn weitere Papiere für Kalibrierungszwecke ansehen zu müssen? Sie haben bereits eine gute Vorstellung von den Fähigkeiten der Schüler und können daher eine Auswahl von Arbeiten aus dem gesamten Notenbereich auswählen. Sie könnten dann abschätzen, ob Sie die Großzügigkeit der Grader über den gesamten Test oder in jeder Komponente ausgleichen müssen, und ob Sie dies nur durch Addieren / Subtrahieren einer Konstanten oder durch etwas Feineres wie Interpolation tun müssen (z. B. wenn Sie sich Sorgen machen, Linearität nahe 100). Aber ein warnendes Wort zur Interpolation: Nehmen wir an, der Lead Assessor markiert fünf Beispielpapiere mit 70, 75, 80, 85 und 90, Während ein Sortierer sie als 80, 88, 84, 93 und 96 kennzeichnet, gibt es einige Meinungsverschiedenheiten über die Reihenfolge. Wahrscheinlich möchten Sie die beobachteten Noten von 96 bis 100 auf das Intervall 90 bis 100 und die beobachteten Noten von 93 bis 96 auf das Intervall 85 bis 90 abbilden. Vielleicht sollten beobachtete Noten von 84 bis 93 dem Intervall 75 bis 85 zugeordnet werden? Eine Alternative wäre eine (möglicherweise polynomielle) Regression, um eine Formel für "vorhergesagte wahre Note" aus "beobachteter Note" zu erhalten. Vielleicht sollten beobachtete Noten von 84 bis 93 dem Intervall 75 bis 85 zugeordnet werden? Eine Alternative wäre eine (möglicherweise polynomielle) Regression, um eine Formel für "vorhergesagte wahre Note" aus "beobachteter Note" zu erhalten. Vielleicht sollten beobachtete Noten von 84 bis 93 dem Intervall 75 bis 85 zugeordnet werden? Eine Alternative wäre eine (möglicherweise polynomielle) Regression, um eine Formel für "vorhergesagte wahre Note" aus "beobachteter Note" zu erhalten.
quelle
Ein sehr einfaches Modell:
Jede Kohorte ist voreingenommen von der Stärke ihrer Schüler und der Leichtigkeit des Benoters. Unter der Annahme, dass dies ein additiver Effekt ist, schließen wir diesen folgendermaßen: Wir subtrahieren die durchschnittliche Punktzahl der Kohorte beim ersten Test und addieren die durchschnittliche Punktzahl der Kohorte beim zweiten Test.
Der Nachteil ist, dass ein einzelner Student möglicherweise bestraft wird, wenn die Leute in seiner Kohorte beim zweiten Test Pech haben. Aber jede statistische Technik wird diesen potenziell unfairen Nachteil mit sich bringen.
quelle
Das kannst du nicht. Zumindest nicht ohne zusätzliche Daten zu sammeln. Um zu sehen, warum, lesen Sie @ whubers zahlreiche Kommentare in diesem Thread.
quelle
Bearbeiten
Das in dieser Antwort gelöste Problem besteht darin, Benoter zu finden, die den Schülern, die sie nicht mögen, weniger Punkte geben.
Ursprünglicher Beitrag
Mein Ansatz, der meiner Meinung nach leicht umzusetzen ist, lautet wie folgt:
1
Nehmen wir das Modell an
2
Und mache 11 individuelle Schätzungen vonG und σ
3
Nun ist eine ungewöhnliche Beobachtung eine solche, dass die Menge
Hinweis
Allee Es wird angenommen, dass es sich um Gauß handelt. Die Noten sind normalerweise nicht verteilt, daher Richtlinien zur Größe vonT sind schwer zu geben.
R-Code
Unten ist der Code in R. Beachten Sie, dass in Ihrem Fall sowohl mu als auch y angegeben werden, sodass die generierenden Zeilen, wenn ihnen rnorm-Nummern zugewiesen werden, ignoriert werden sollten. Ich schließe sie ein, um das Skript ohne Daten auswerten zu können.
quelle
Umformulierung des Problems: Wie Sie am besten vorgehen, wenn Sie eine zweiteilige Prüfung mit den Bedingungen bewerten, die erfordern, dass der zweite Teil aufgrund der Bandbreite der qualitativen Beurteilungen der delegierten Marker einer größeren Unsicherheit ausgesetzt ist.
Wobei: Master-Tester = Verantwortliche Person für die Prüfung Delegierter Tester = Person (1 von 11), die mit der Note 2 der Prüfung beauftragt ist Student = der Typ, der den Spaß daran hat, eine Prüfung zu bestehen
Zu den Zielen gehören: A) Die Schüler erhalten eine Note, die ihre Arbeit widerspiegelt. B) Managen Sie die Unsicherheit des zweiten Teils so, dass sie mit der Absicht des Master-Testers übereinstimmt
Vorgeschlagener Ansatz (Antwort): 1. Der Master-Tester wählt zufällig eine repräsentative Auswahl von Prüfungen aus, markiert Teil 2 und entwickelt eine Korrelation mit Teil 1. 2. Verwenden Sie die Korrelation, um alle Daten der delegierten Marker zu bewerten (Teil 1) vs # 2 score) 3. Wenn die Korrelation signifikant vom Master-Tester abweicht - was für den Master-Tester akzeptabel ist -, untersuchen Sie die Prüfung als Master-Tester, um das Ergebnis neu zuzuweisen.
Dieser Ansatz stellt sicher, dass der Master-Tester für die Korrelation und die akzeptable Signifikanz verantwortlich ist. Die Korrelation kann so einfach sein wie die Punktzahl für Teil 1 gegen 2 oder die relative Punktzahl für Fragen von Test 1 gegen 2.
Der Master-Tester kann auch eine Ergebnisqualität für Teil 2 basierend auf der "Gummibeschaffenheit" der Korrelation festlegen.
quelle