Wie gehe ich bei der Benotung von studentischen Arbeiten am besten mit den Auswirkungen von unterschiedlich großzügigen Markern um?

13

Rund 600 Studierende haben eine Punktzahl für ein umfangreiches Assessment, bei dem von einer guten Zuverlässigkeit / Validität ausgegangen werden kann. Die Bewertung wird mit 100 Punkten bewertet, und es handelt sich um einen vom Computer bewerteten Multiple-Choice-Test.

Diese 600 Schüler haben auch Punkte für eine zweite, kleinere Bewertung. In diesem zweiten Teil der Bewertung werden sie in elf Kohorten mit elf verschiedenen Benotungsgruppen eingeteilt, und es gibt unerwünscht große Unterschiede zwischen den Benotungsgruppen in Bezug auf ihre „Großzügigkeit“ bei der Benotung oder deren Fehlen. Diese zweite Bewertung wird ebenfalls mit 100 Punkten bewertet.

Die Schüler wurden nicht zufällig in Kohorten eingeteilt, und es gibt gute Gründe, Unterschiede in den Qualifikationsniveaus zwischen den Kohorten zu erwarten.

Ich habe die Aufgabe, sicherzustellen, dass Unterschiede zwischen Kohortenmarkern bei der zweiten Aufgabe die einzelnen Schüler nicht materiell benachteiligen.

Meine Idee ist es, die Kohorten-Scores bei der zweiten Bewertung mit den Kohorten-Scores bei der ersten Bewertung in Einklang zu bringen und dabei die individuellen Unterschiede innerhalb der Kohorten beizubehalten. Wir sollten davon ausgehen, dass ich guten Grund zu der Annahme habe, dass die Leistung beider Aufgaben in hohem Maße miteinander korreliert, die Marker sich jedoch in ihrer Großzügigkeit erheblich unterscheiden.

Ist das der beste Ansatz? Wenn nicht, was ist das?

Es wäre sehr dankbar, wenn der Antwortende einige praktische Tipps zur Implementierung einer guten Lösung geben könnte, z. B. in R oder SPSS oder Excel.

user1205901 - Setzen Sie Monica wieder ein
quelle
3
Gute Frage! Sollen die Endnoten für die Multiple-Choice- und die Aufsatzteile vergleichbar sein (dh die gleichen Zahlenbereiche)?
gung - Wiedereinsetzung von Monica
2
Als ich diese Frage schrieb, dachte ich, es könnte deine Gasse sein! Die Endergebnisse sind weitgehend vergleichbar, aber ein bisschen anders. Der Mittelwert im Multiple-Choice-Bereich liegt bei ~ 70 mit einer SD um 15. Der Mittelwert im anderen Bereich liegt bei ~ 85 mit einer SD um 6.
user1205901 - Monica
7
Ich wäre misstrauisch, wenn es darum ginge, dieses Problem nur auf der Grundlage der von Ihnen beschriebenen Daten zu lösen, da ich davon ausgehen müsste, dass Kohorte und Leistung auf den beiden separaten Testinstrumenten nicht zusammenwirken. Wenn möglich, ziehen Sie die Option in Betracht, ein separates kleines Experiment durchzuführen, um die Grader zu kalibrieren.
whuber
9
Um besser zu erkennen, wo das Problem liegt, nehmen wir (hypothetisch) an, dass (1) die beiden Bewertungsformen Multiple-Choice und Aufsatz sind und (2) Ihre älteren Schüler bei Aufsatzfragen in der Regel relativ bessere Ergebnisse erzielen. Wenn Sie Ihre Daten verwenden, um die Punktzahl "kohärent" zu machen, verwechseln Sie die Abstufungseffekte mit den Alterseffekten und benachteiligen dadurch systematisch die älteren Schüler im Vergleich zu den jüngeren. Egal, wie ausgefeilt ein Algorithmus ist, er kann nur dieses grundlegende Problem behandeln. Sie benötigen einige zusätzliche Daten, um diese Störung zu beheben.
Whuber
3
Eine Sache zu prüfen ist , wie gut Sie die Anpassungsprozedere für Studenten würde erklären oder anderen Beteiligten: viele könnte , dass ein mögliches Problem gegeben fühlen mit der Markierung, setzen einige Mühe in eine richtige Kalibrierung von Markern würde nicht zu viel zu erwarten , wenn Die Prüfung ist wichtig.
Scortchi - Wiedereinsetzung von Monica

Antworten:

8

Zu wissen , wie Sortierer unterscheiden ist gut, aber immer noch nicht , dass Ihnen nicht sagen , was die Noten kompensieren zu . Stellen Sie sich der Einfachheit halber nur zwei Sortierer vor. Selbst wenn wir zu dem Schluss kommen, dass Grader 1 durchweg 5 Punkte großzügiger ist als Grader 2, sagt das nichts darüber aus, was Sie mit zwei Schülern machen sollen, die jeweils die Note 70 hatten, einer nach Grader 1 und einer nach Grader 2. Sagen wir, dass Grader 2 War es ein harter Marker, und erhöhen Sie diese 70 auf 75, während Sie die 70 von Grader 1 unverändert lassen? Oder gehen wir davon aus, dass Grader 1 übermäßig nachsichtig war, seinen Schüler auf 65 Punkte zurückstieß und die 70er von Grader 2 unverändert ließ? Gehen wir auf halbem Weg Kompromisse ein - auf Ihren Fall bezogen auf einen Durchschnitt der 11 Schulabgänger? Auf die absoluten Noten kommt es an, daher reicht es nicht aus, die relative Großzügigkeit zu kennen.

Ihre Schlussfolgerung kann davon abhängen, wie "objektiv" Sie die endgültige absolute Note finden sollten. Ein mentales Modell wäre, jedem Schüler eine "richtige" Note vorzuschlagen - diejenige, die der leitende Assessor vergeben würde, wenn er Zeit hätte, jede Arbeit einzeln zu bewerten - zu der die beobachteten Noten Näherungswerte sind. In diesem Modell müssen beobachtete Noten für ihre Benotung kompensiert werden, um sie so nah wie möglich an ihre unbeobachtete "wahre" Note heranzuführen. Ein anderes Modell könnte sein, dass jede Bewertung subjektiv ist und wir versuchen, jede beobachtete Note in die Note umzuwandeln, die wir vorhergesagt haben, wenn alle Bewerter das gleiche Papier in Betracht gezogen und eine Art Kompromiss oder Durchschnittsnote dafür erreicht hätten. Ich finde das zweite Modell als Lösung weniger überzeugend, auch wenn die Einräumung von Subjektivität realistischer ist. In einem Bildungsumfeld gibt es normalerweise jemanden, der letztendlich die Verantwortung für die Bewertung trägt, um sicherzustellen, dass die Schüler "die Note erhalten, die sie verdienen", aber diese Führungsrolle hat im Wesentlichen die Verantwortung gegenüber denjenigen Gradern freigesprochen, von denen wir bereits wissen, dass sie nicht einverstanden sind. Ab hier gehe ich davon ausist eine "richtige" Note, die wir schätzen wollen, aber dies ist eine anfechtbare Aussage und passt möglicherweise nicht zu Ihren Umständen.

Angenommen, die Schüler A, B, C und D, die sich alle in derselben Kohorte befinden, "sollten" mit 75, 80, 85 bzw. 90 bewertet werden, aber ihre großzügige Benotung bewertet sie durchweg mit 5 zu hoch. Wir beobachten 80, 85, 90 und 95 und sollten 5 subtrahieren, aber es ist problematisch, die zu subtrahierende Zahl zu finden. Dies kann nicht durch Vergleichen der Ergebnisse zwischen Kohorten erreicht werden, da wir davon ausgehen, dass Kohorten unterschiedliche durchschnittliche Fähigkeiten aufweisen. Eine Möglichkeit besteht darin, die Multiple-Choice-Testergebnisse zu verwenden, um die korrekten Ergebnisse für die zweite Aufgabe vorherzusagen, und diese dann zu verwenden, um die Abweichungen zwischen den einzelnen Sortierern und den korrekten Noten zu bewerten. Diese Vorhersage ist jedoch nicht trivial. Wenn Sie einen unterschiedlichen Mittelwert und eine unterschiedliche Standardabweichung zwischen den beiden Bewertungen erwarten, können Sie nicht einfach davon ausgehen, dass die zweite Bewertungsstufe mit der ersten übereinstimmt.

Außerdem unterscheiden sich die Studierenden in der relativen Eignung für Multiple-Choice- und schriftliche Bewertungen. Sie können dies als eine Art Zufallseffekt behandeln, der Bestandteil der "beobachteten" und "wahren" Noten des Schülers ist, jedoch nicht durch die "vorhergesagte" Note erfasst wird. Wenn sich Kohorten systematisch unterscheiden und die Schüler einer Kohorte in der Regel ähnlich sind, sollten wir nicht erwarten, dass dieser Effekt innerhalb jeder Kohorte auf Null gemittelt wird. Wenn die beobachteten Noten einer Kohorte im Durchschnitt +5 gegenüber den vorhergesagten Noten liegen, ist dies unmöglichum festzustellen, ob dies auf eine großzügige Benotung zurückzuführen ist, eine Kohorte, die für eine schriftliche Beurteilung besonders gut geeignet ist, als Multiple-Choice oder eine Kombination aus beiden. Im Extremfall kann die Kohorte bei der zweiten Bewertung sogar eine geringere Eignung aufweisen, was jedoch von einem sehr großzügigen Bewerter mehr als ausgeglichen wurde - oder umgekehrt. Sie können das nicht auseinander brechen. Es ist verwirrt.

Ich bezweifle auch die Angemessenheit eines solchen einfachen additiven Modells für Ihre Daten. Die Grader unterscheiden sich möglicherweise nicht nur durch die Ortsverschiebung, sondern auch durch die Streuung vom Hauptassessor. Da Kohorten jedoch wahrscheinlich in ihrer Homogenität variieren, können Sie die Streuung der beobachteten Noten in jeder Kohorte nicht einfach überprüfen, um dies zu erkennen. Darüber hinaus weist der Großteil der Verteilung hohe Punktzahlen auf, die ziemlich nahe am theoretischen Maximum von 100 liegen. Ich würde mir vorstellen, dass dies zu einer Nichtlinearität aufgrund der Komprimierung in der Nähe des Maximums führt - ein sehr großzügiger Grader kann A-, B-, C- und D-Noten wie geben 85, 90, 94, 97. Dies ist schwieriger umzukehren, als nur eine Konstante zu subtrahieren. Schlimmer noch, Sie könnten "Clipping" sehen - ein extrem großzügiger Grader kann sie mit 90, 95, 100, 100 einstufen. Dies ist unmöglich Informationen über die relative Leistung von C und D gehen unwiederbringlich verloren.

Ihre Grader verhalten sich sehr unterschiedlich. Sind Sie sicher, dass sie sich eher in ihrer generellen Großzügigkeit als in ihrer Großzügigkeit in verschiedenen Bestandteilen der Bewertung unterscheiden? Dies könnte eine Überprüfung wert sein, da es zu verschiedenen Komplikationen kommen kann - z. B. kann die beobachtete Note für B schlechter sein als die für A, obwohl B 5 Punkte "besser" ist, selbst wenn die vom Grader für jede Komponente zugewiesenen Noten eine monoton ansteigende Funktion sind des Hauptassessors! Angenommen, die Bewertung wird zwischen Q1 (A sollte 30/50, B 45/50 erzielen) und Q2 (A sollte 45/50, B 35/50 erzielen) aufgeteilt. Stellen Sie sich vor, der Grader ist in Q1 sehr nachsichtig (beobachtete Noten: A 40/50, B 50/50), aber in Q2 hart (beobachtet: A 42/50, 30/50), dann beobachten wir Gesamtwerte von 82 für A und 80 für B. Wenn Sie Komponentenbewertungen berücksichtigen müssen,

Dies ist wahrscheinlich eher ein ausführlicher Kommentar als eine Antwort, in dem Sinne, dass er keine bestimmte Lösung innerhalb der ursprünglichen Grenzen Ihres Problems vorschlägt. Aber wenn Ihre Sortierer bereits ungefähr 55 Papiere pro Stück verarbeiten, ist es dann für sie so schlimm, sich fünf oder zehn weitere Papiere für Kalibrierungszwecke ansehen zu müssen? Sie haben bereits eine gute Vorstellung von den Fähigkeiten der Schüler und können daher eine Auswahl von Arbeiten aus dem gesamten Notenbereich auswählen. Sie könnten dann abschätzen, ob Sie die Großzügigkeit der Grader über den gesamten Test oder in jeder Komponente ausgleichen müssen, und ob Sie dies nur durch Addieren / Subtrahieren einer Konstanten oder durch etwas Feineres wie Interpolation tun müssen (z. B. wenn Sie sich Sorgen machen, Linearität nahe 100). Aber ein warnendes Wort zur Interpolation: Nehmen wir an, der Lead Assessor markiert fünf Beispielpapiere mit 70, 75, 80, 85 und 90, Während ein Sortierer sie als 80, 88, 84, 93 und 96 kennzeichnet, gibt es einige Meinungsverschiedenheiten über die Reihenfolge. Wahrscheinlich möchten Sie die beobachteten Noten von 96 bis 100 auf das Intervall 90 bis 100 und die beobachteten Noten von 93 bis 96 auf das Intervall 85 bis 90 abbilden. Vielleicht sollten beobachtete Noten von 84 bis 93 dem Intervall 75 bis 85 zugeordnet werden? Eine Alternative wäre eine (möglicherweise polynomielle) Regression, um eine Formel für "vorhergesagte wahre Note" aus "beobachteter Note" zu erhalten. Vielleicht sollten beobachtete Noten von 84 bis 93 dem Intervall 75 bis 85 zugeordnet werden? Eine Alternative wäre eine (möglicherweise polynomielle) Regression, um eine Formel für "vorhergesagte wahre Note" aus "beobachteter Note" zu erhalten. Vielleicht sollten beobachtete Noten von 84 bis 93 dem Intervall 75 bis 85 zugeordnet werden? Eine Alternative wäre eine (möglicherweise polynomielle) Regression, um eine Formel für "vorhergesagte wahre Note" aus "beobachteter Note" zu erhalten.

Silberfisch
quelle
1
Leider macht es die Art der Bewertung 2 für die Bewerter unmöglich, mehr für Kalibrierungszwecke zu betrachten. Sie können sich das wie eine mündliche Gedichtrezitation vorstellen, die einmal ohne Aufnahme durchgeführt und unmittelbar danach bewertet wurde. Es wäre unpraktisch, neue Rezitationen nur für Kalibrierungszwecke einzuplanen. Zur Beantwortung Ihrer anderen Frage hatte Bewertung 2 nicht wirklich eindeutige Unterkomponenten, und wir müssen die Komponentenbewertungen nicht berücksichtigen.
user1205901
1
Dies ist "keine Antwort", aber in einer idealen Welt hätte ich vorgeschlagen, die Dinge umzudrehen und ein Beispielmuster (möglicherweise künstliche Aufgaben, die bewusst an den Grenzen der Klassengrenzen und nicht von echten Schülern entworfen wurden) als Trainingsmethode zu verwenden Die Schüler haben die gleiche Großzügigkeit, anstatt ihre Großzügigkeit abzuleiten und zu kompensieren. Wenn die Bewertungen durchgeführt werden, ist dies jedoch eindeutig keine Lösung für Sie.
Silverfish
1
(+1) Sehr gründlich "keine Antwort". Die Konsistenz bei eher subjektiven Tests kann häufig erheblich verbessert werden, indem die Bewertungsaufgabe in Komponenten aufgeteilt wird. Andernfalls könnte ein Bewerter dem Rhythmus mehr Gewicht beimessen, ein anderer der Projektion usw.
Scortchi
Es ist klar, dass ich nicht nur der Person, die letztendlich über das Problem entscheidet, eine mögliche Anpassung vorlegen muss, sondern auch die Vor- und Nachteile der Anpassung erläutern muss. Ihre Antwort enthält viele hilfreiche Informationen zu diesem Thema. Ich frage mich jedoch, anhand welcher Kriterien ich beurteilen kann, ob es sinnvoller ist, alles in Ruhe zu lassen oder eine Änderung vorzunehmen. Ich schaue auf die Kohortenstufen und meine Intuition sagt, dass die Unterschiede zwischen den Markern einen großen Einfluss haben. Die Intuition ist unzuverlässig, aber ich bin nicht sicher, was ich in diesem Fall noch tun kann.
user1205901
2
Eine Frage ist, ob Sie Grund zu der Annahme haben, dass der Effekt der "differenzierten Aufgabeneignung" gering ist, insbesondere wenn er über eine Kohorte gemittelt wird, verglichen mit dem Effekt der "Grader-Großzügigkeit". In diesem Fall könnten Sie versuchen, den Großzügigkeitseffekt für jede Kohorte abzuschätzen - aber Sie laufen Gefahr, verwirrt zu werden. Darüber hinaus gibt es einen Haken 22. Ich wäre am vorsichtigsten, große "Korrekturen" an den beobachteten Noten vorzunehmen. Aber wenn die vorgeschlagenen Korrekturen gering sind, ist es plausibel, dass sie auf systematische Unterschiede in der Fähigkeit zu unterschiedlichen Aufgaben zwischen den Kohorten zurückzuführen sind, und nicht auf die Großzügigkeit der Grader.
Silverfish
2

Ein sehr einfaches Modell:

s1,iis2,ichA1,,EINp

Jede Kohorte ist voreingenommen von der Stärke ihrer Schüler und der Leichtigkeit des Benoters. Unter der Annahme, dass dies ein additiver Effekt ist, schließen wir diesen folgendermaßen: Wir subtrahieren die durchschnittliche Punktzahl der Kohorte beim ersten Test und addieren die durchschnittliche Punktzahl der Kohorte beim zweiten Test.

s1

jp,iAj,s1,i=s1,i1|Aj|iAj(s1,is2,i)

s

i,si=αs1,i+(1α)s2,i

Der Nachteil ist, dass ein einzelner Student möglicherweise bestraft wird, wenn die Leute in seiner Kohorte beim zweiten Test Pech haben. Aber jede statistische Technik wird diesen potenziell unfairen Nachteil mit sich bringen.

Arthur B.
quelle
3
α
1
Nein - die Kohorten werden nicht zufällig ausgewählt.
Scortchi
1
... was, wie @whuber immer wieder sagt, mit einer inhärenten Tendenz der Kohorte verwechselt wird (aufgrund des Alters oder was auch immer), bei einer Art von Test relativ besser abzuschneiden als bei einer anderen.
Scortchi
2
Sie können Verwirrung nicht beseitigen, indem Sie größere Kohorten nehmen! Bestenfalls können Sie immer genauere Schätzungen von nicht interpretierbaren Werten finden.
whuber
3
Möglicherweise vernünftig, aber angesichts der dem OP zur Verfügung stehenden Informationen nicht testbar. Die Gültigkeit Ihrer Antwort hängt von der Wahrheit dieser impliziten Annahme ab. Schlimmer noch, seine Negation (die natürlich auch nicht testbar ist) ist überaus vernünftig: Da Kohorten selbst ausgewählt werden, können sie aus Personen bestehen, die mit verschiedenen Bewertungsinstrumenten auf gemeinsame Weise arbeiten, was darauf hindeutet, dass tatsächlich ein unterschiedlicher Erfolg wahrscheinlich ist Dies ist zum Teil auf die Kohorte und nur zum Teil auf die Variabilität zwischen den Gradern zurückzuführen.
whuber
1

Das kannst du nicht. Zumindest nicht ohne zusätzliche Daten zu sammeln. Um zu sehen, warum, lesen Sie @ whubers zahlreiche Kommentare in diesem Thread.

Jake Westfall
quelle
0

Bearbeiten

Das in dieser Antwort gelöste Problem besteht darin, Benoter zu finden, die den Schülern, die sie nicht mögen, weniger Punkte geben.

Ursprünglicher Beitrag

Mein Ansatz, der meiner Meinung nach leicht umzusetzen ist, lautet wie folgt:

μk,ikiyk,i

1

Nehmen wir das Modell an

yk,i=μk,i+α+τek,iααichα

2

Gichichy~k,ich

yk,ich-μk,ich-α=y~k,ich=Gich+σiche~k,ich

Und mache 11 individuelle Schätzungen von G und σ

3

Nun ist eine ungewöhnliche Beobachtung eine solche, dass die Menge

T=|y~-Gichσich|ist groß. Wählen Sie für jede Kohorte die größte dieser Größen aus und untersuchen Sie sie.

Hinweis

Alle eEs wird angenommen, dass es sich um Gauß handelt. Die Noten sind normalerweise nicht verteilt, daher Richtlinien zur Größe vonT sind schwer zu geben.

R-Code

Unten ist der Code in R. Beachten Sie, dass in Ihrem Fall sowohl mu als auch y angegeben werden, sodass die generierenden Zeilen, wenn ihnen rnorm-Nummern zugewiesen werden, ignoriert werden sollten. Ich schließe sie ein, um das Skript ohne Daten auswerten zu können.

mu_0 <- 50; 
alpha <- 5;
tau<- 10; 
# 0 Generate data for first assignment
mu <- matrix(rnorm(605, mu_0, tau), 11) 

# 1 Generate data for second assignment and estimate alpha
G <- rnorm(11, 0)*10;
for(i in 1:11){
    y[i,] <- rnorm(55, 0, sigma) + mu[i,] + alpha + G[i];
}

alpha_hat <- mean(y-mu)
alpha_hat

# 2 Form \tilde{y} and find unsual observations
ytilde <- y - mu - alpha_hat
T <- matrix(0, 11, 55);
for(i in 1:11){
    G_hat <- mean(ytilde[i,]);
    sigma_hat <- sd(ytilde[i,]);
    T[i,] <- order(abs(ytilde[i,] - G_hat)/sigma_hat)
}
# 3 Look at grader number 2 by
T[2,]
Hunaphu
quelle
4
Sie scheinen die Frage nicht beantwortet zu haben: Sie beenden nur mit einer Empfehlung, "ungewöhnliche Beobachtungen" zu untersuchen. Wie löst das das Problem?
whuber
Beim erneuten Lesen der Frage habe ich mich vielleicht zu sehr auf den "individuellen" Teil konzentriert. Das in dieser Antwort gelöste Problem besteht eher darin, Benoter zu finden, die den Schülern, die sie nicht mögen, weniger Punkte geben. Die ursprüngliche Frage ist unmöglich (!) Zu lösen. Wie bereits angedeutet, ist es sehr wahrscheinlich, dass die Schüler in jeder Kohorte zusammenarbeiten oder anderweitig stark korrelieren.
Hunaphu
0

Umformulierung des Problems: Wie Sie am besten vorgehen, wenn Sie eine zweiteilige Prüfung mit den Bedingungen bewerten, die erfordern, dass der zweite Teil aufgrund der Bandbreite der qualitativen Beurteilungen der delegierten Marker einer größeren Unsicherheit ausgesetzt ist.

Wobei: Master-Tester = Verantwortliche Person für die Prüfung Delegierter Tester = Person (1 von 11), die mit der Note 2 der Prüfung beauftragt ist Student = der Typ, der den Spaß daran hat, eine Prüfung zu bestehen

Zu den Zielen gehören: A) Die Schüler erhalten eine Note, die ihre Arbeit widerspiegelt. B) Managen Sie die Unsicherheit des zweiten Teils so, dass sie mit der Absicht des Master-Testers übereinstimmt

Vorgeschlagener Ansatz (Antwort): 1. Der Master-Tester wählt zufällig eine repräsentative Auswahl von Prüfungen aus, markiert Teil 2 und entwickelt eine Korrelation mit Teil 1. 2. Verwenden Sie die Korrelation, um alle Daten der delegierten Marker zu bewerten (Teil 1) vs # 2 score) 3. Wenn die Korrelation signifikant vom Master-Tester abweicht - was für den Master-Tester akzeptabel ist -, untersuchen Sie die Prüfung als Master-Tester, um das Ergebnis neu zuzuweisen.

Dieser Ansatz stellt sicher, dass der Master-Tester für die Korrelation und die akzeptable Signifikanz verantwortlich ist. Die Korrelation kann so einfach sein wie die Punktzahl für Teil 1 gegen 2 oder die relative Punktzahl für Fragen von Test 1 gegen 2.

Der Master-Tester kann auch eine Ergebnisqualität für Teil 2 basierend auf der "Gummibeschaffenheit" der Korrelation festlegen.

MarkR
quelle