Wie werden die Ergebnisse der Spearman-Brown-Prophezeiungsformel durch Testfragen mit unterschiedlichen Schwierigkeiten oder Bewertern, die leicht oder schwer zu bewerten sind, beeinflusst? Ein angesehener Text besagt, dass der SB betroffen ist, gibt jedoch keine Details an. (Siehe Zitat unten.)
Guion, R. M (2011). Bewertung, Messung und Vorhersage von Personalentscheidungen, 2. Auflage. S. 477
"Die Zuverlässigkeit kann erhöht werden, indem die Bewerter unter Verwendung der Spearman-Brown-Gleichung zusammengefasst werden. ... Wenn die Zuverlässigkeit einer einzelnen Bewertung 0,50 beträgt, beträgt die Zuverlässigkeit von zwei, vier oder sechs parallelen Bewertungen ungefähr 0,67, 0,80 bzw. .86 "(Houston, Raymond & Svec, 1991, S. 409). Ich mag dieses Zitat, weil das Wort ungefähr erkennt, dass statistische Schätzungen "im Durchschnitt" Aussagen darüber sind, was zu erwarten ist, wenn alles wie angenommen verläuft. Darüber hinaus ist das operative Wort parallel. Die Mittelung von Bewertungen (oder die Verwendung von Spearman-Brown), wenn ein Bewerter beispielsweise systematisch nachsichtig ist, passt einfach nicht zur Annahme. Wenn Aufsätze jeweils von zwei Bewertern bewertet werden, von denen einer milder ist als der andere, besteht das Problem darin, zwei Multiple-Choice-Tests mit ungleichem Schwierigkeitsgrad (nicht parallele Formen) zu verwenden. Scores, die auf unterschiedlichen (ungleichmäßigen) Testformen basieren, sind nicht vergleichbar. So ist es auch mit dem Mischen milder und schwieriger Bewerter; Die Zuverlässigkeit der gepoolten Bewertungen wird durch die Spearman-Brown-Gleichung der klassischen Testtheorie falsch geschätzt. Schlimmer ist es, wenn jeder Richter ein Konstrukt etwas anders definiert. "
quelle
Antworten:
Obwohl ich mich ein wenig verlegen fühle, wenn ich sowohl einem "angesehenen Text" als auch einem anderen Lebenslaufbenutzer widerspreche, scheint es mir, dass die Spearman-Brown-Formel nicht durch Elemente mit unterschiedlichen Schwierigkeitsgraden beeinflusst wird. Natürlich wird die Spearman-Brown-Formel normalerweise unter der Annahme abgeleitet, dass wir parallele Elemente haben, was (unter anderem) impliziert, dass die Elemente die gleichen Schwierigkeiten haben. Es stellt sich jedoch heraus, dass diese Annahme nicht notwendig ist. Es kann gelockert werden, um ungleiche Schwierigkeiten zuzulassen, und die Spearman-Brown-Formel bleibt bestehen. Ich demonstriere dies unten.
Es sei daran erinnert, dass in der klassischen Testtheorie angenommen wird, dass eine Messung die Summe einer "True Score" -Komponente und einer Fehlerkomponente ist, wobei und korreliert sind. Bei parallelen Elementen wird davon ausgegangen, dass alle Elemente die gleichen wahren Bewertungen aufweisen und sich nur in ihren Fehlerkomponenten unterscheiden, obwohl davon ausgegangen wird, dass diese die gleiche Varianz aufweisen. In Symbolen, für jedes Paar von Elementen undX T E
Nun soll die Zuverlässigkeit einer Testform solcher Elemente abgeleitet werden. Betrachten Sie einen Test, der aus Wesentlichen parallelen Elementen besteht, deren Summe die Testbewertung ergibt. Die Zuverlässigkeit ist per Definition das Verhältnis der tatsächlichen Bewertungsvarianz zur beobachteten Bewertungsvarianz. Für die Zuverlässigkeit der einzelnen Elemente folgt aus der Definition der wesentlichen Parallelität, dass sie dieselbe Zuverlässigkeit haben, die wir mit mit ist die wahre Score-Varianz und die Fehlervarianz. Für die Zuverlässigkeit der Gesamttestpunktzahl untersuchen wir zunächst die Varianz der Gesamttestpunktzahlk ρ=σ2T/(σ2T+σ2E) σ2T σ2E Tσ 2 T σ 2 E k 2 σ 2 T.
@JeremyMiles wirft einige interessante und wichtige Punkte darüber auf, was passieren kann, wenn wir die Testlänge "in der realen Welt" erhöhen, aber zumindest gemäß den idealisierten Annahmen der klassischen Testtheorie spielen Variationen in der Schwierigkeit des Gegenstands keine Rolle für die Zuverlässigkeit von a Testform (im krassen Gegensatz zu den Annahmen der modernen Item-Response-Theorie!). Dieselbe grundlegende Argumentation ist auch der Grund, warum wir normalerweise eher von einer wesentlichen Tau-Äquivalenz als von einer Tau-Äquivalenz sprechen , da die meisten wichtigen Ergebnisse für den milderen Fall gelten, in dem sich die Schwierigkeiten der Gegenstände (dh die Mittelwerte) unterscheiden können.
quelle
Es ist nicht leicht zu sagen.
Erstens geht der Spearman-Brown davon aus, dass Testobjekte (oder Bewerter) zufällig aus einer Population von Testobjekten (oder Bewertern) ausgewählt werden. Dies trifft insbesondere bei Tests nie wirklich zu, da es schwierig ist, mehr Elemente zusammenzustellen, und es wahrscheinlich ist, dass Sie zunächst die besseren Elemente verwenden - dann werden Sie feststellen, dass der Test länger sein muss, also werden Sie "Kratzen Sie das Fass" für Gegenstände.
Zweitens unterscheiden sich die Zuverlässigkeit der Elemente, und die Zuverlässigkeit hängt nicht unbedingt mit der Schwierigkeit zusammen (wenn dies hilfreich ist, denken Sie an die Steigung und den Achsenabschnitt der Elementkennlinie in der Elementantworttheorie). Bei der Berechnung der Zuverlässigkeit (z. B. Cronbachs Alpha, eine Form der Korrelation innerhalb der Klasse) wird jedoch davon ausgegangen, dass alle Zuverlässigkeitswerte gleich sind (sie setzen ein wesentliches tau-äquivalentes Messmodell voraus - das heißt, dass alle nicht standardisierten Zuverlässigkeitswerte der einzelnen Elemente alle gleich sind gleich). Das ist mit ziemlicher Sicherheit falsch. Das Hinzufügen von Elementen kann steigen oder fallen. Es kommt auf die Gegenstände an.
Hier ist eine andere Art, darüber nachzudenken. Ich wähle zufällig eine Stichprobe aus einer Population aus und berechne den Mittelwert und den Standardfehler des Mittelwerts. Dieser Mittelwert wird ein unvoreingenommener Schätzer des Bevölkerungsmittels sein. Dann vergrößere ich meine Stichprobe - der erwartete Wert des Mittelwerts ist der gleiche, aber es ist unwahrscheinlich, dass er tatsächlich der gleiche ist - er wird mit ziemlicher Sicherheit steigen oder fallen. Genau wie ich erwarte, dass der Standardfehler kleiner wird, aber der Betrag, um den er schrumpft, nicht konsistent ist (und es ist nicht unmöglich, dass der Standardfehler größer wird).
quelle