Gleichungen in den Nachrichten: Übersetzen eines mehrstufigen Modells für ein allgemeines Publikum

24

Die New York Times kommentiert das Bewertungssystem für Lehrkräfte mit Mehrwert, das verwendet wird, um Pädagogen in New York City Feedback zu geben. Die lede ist die Gleichung zur Berechnung der Punktzahlen - ohne Kontext dargestellt. Die rhetorische Strategie scheint Einschüchterung durch Mathematik zu sein:

Alt-Text

Der vollständige Text des Artikels ist verfügbar unter: http://www.nytimes.com/2011/03/07/education/07winerip.html

Der Autor, Michael Winerip, argumentiert, dass die Bedeutung der Gleichung für niemanden außer Matt Damon verständlich ist, geschweige denn für einen durchschnittlichen Lehrer:

"Die Berechnung für Frau Isaacsons 3,69 vorhergesagte Punktzahl ist noch entmutigender. Sie basiert auf 32 Variablen - einschließlich der Frage, ob ein Schüler vor dem Pretestjahr in der Klasse belassen wurde und ob er im Pretest oder nach dem Test" neu in der Stadt "ist Jahr."

Diese 32 Variablen werden in ein statistisches Modell eingebunden, das wie eine der Gleichungen aussieht, die in „Good Will Hunting“ nur Matt Damon lösen konnte.

Der Prozess erscheint transparent, aber er ist auch für kluge Laien wie Lehrer, Schulleiter und - ich zögere das zu sagen - Journalisten ein Kinderspiel.

Frau Isaacson hat zwar zwei Ivy League-Abschlüsse, ist aber verloren. "Ich finde das unmöglich zu verstehen", sagte sie.

Im Klartext schätzt Frau Isaacson am besten, was die Abteilung ihr zu sagen versucht: Obwohl 65 ihrer 66 Schüler beim Zustandstest gut abschnitten, sollten mehr ihrer 3er 4er gewesen sein.

Aber das ist nur eine Vermutung. "

Wie würden Sie einem Laien das Modell erklären? Der vollständige technische Bericht ist abrufbar unter:

http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf

Update: Andrew Gelman bietet seine Gedanken hier an: http://www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html

regression multilevel-analysis statistics-in-media Andrew
quelle

1

[0 %, 52 %]

$[0\%,~52\%]$

12

Hier ist eine Möglichkeit.

Die Beurteilung der Lehrerleistungen war traditionell schwierig. Ein Teil dieser Schwierigkeit besteht darin, dass verschiedene Schüler unterschiedliche Interessen für ein bestimmtes Fach haben. Wenn ein Schüler ein A erhält, bedeutet dies nicht unbedingt, dass der Unterricht ausgezeichnet war. Vielmehr kann dies bedeuten, dass ein sehr begabter und interessierter Schüler sein Bestes getan hat, um trotz schlechter Unterrichtsqualität erfolgreich zu sein. Umgekehrt bedeutet ein Schüler, der ein D erhält, nicht unbedingt, dass der Unterricht schlecht war - vielmehr kann dies bedeuten, dass ein desinteressierter Schüler trotz der Bemühungen des Lehrers, zu erziehen und zu inspirieren, aus dem Ruder lief.

Die Schwierigkeit wird durch die Tatsache verschärft, dass die Auswahl der Schüler (und damit das Interesse der Schüler) alles andere als zufällig ist. Es ist üblich, dass Schulen ein Fach (oder eine Gruppe von Fächern) gegenüber anderen Fächern hervorheben. Beispielsweise kann eine Schule technische Fächer über geisteswissenschaftliche Fächer legen. Schüler an solchen Schulen sind wahrscheinlich so an technischen Bereichen interessiert, dass sie auch mit dem schlechtesten Lehrer eine Bestnote erhalten. Daher ist der Anteil der Schüler, die Mathematik bestehen, kein gutes Maß für den Unterricht - wir erwarten, dass gute Lehrer viel besser abschneiden als Schüler, die so lernbegierig sind. Im Gegensatz dazu interessieren sich dieselben Studenten möglicherweise überhaupt nicht für Kunst. Es wäre schwierig, selbst vom besten Lehrer zu erwarten, dass alle Schüler A bekommen.

Eine weitere Schwierigkeit besteht darin, dass nicht jeder Erfolg in einer bestimmten Klasse direkt dem Lehrer dieser Klasse zuzuschreiben ist. Der Erfolg kann vielmehr darauf zurückzuführen sein, dass die Schule (oder der gesamte Bezirk) Motivation und Rahmen für die Erreichung schafft.

Um all diesen Schwierigkeiten Rechnung zu tragen, haben Forscher ein Modell erstellt, das den „Mehrwert“ des Lehrers bewertet. Im Wesentlichen berücksichtigt das Modell die intrinsischen Merkmale jedes Schülers (allgemeines Interesse und Lernerfolg) sowie die Beiträge der Schule und des Bezirks zum Schülererfolg und sagt die zu erwartenden Schülernoten mit „Durchschnitt“ voraus. Lehren in dieser Umgebung. Das Modell vergleicht dann die tatsächlichen Noten mit den vorhergesagten und entscheidet auf der Grundlage, ob der Unterricht unter Berücksichtigung aller anderen Gesichtspunkte angemessen war, besser als angemessen oder schlechter. Obwohl das Modell für einen Nicht-Mathematiker komplex erscheint, ist es eigentlich recht einfach und standardisiert. Mathematiker verwenden seit Jahrzehnten ähnliche (und noch komplexere) Modelle.

Zusammenfassend ist Frau Isaacsons Vermutung richtig. Obwohl 65 ihrer 66 Schüler beim Staatstest gut abschnitten, hätten sie selbst dann das gleiche Ergebnis erzielt, wenn ein Hund ihr Lehrer gewesen wäre. Ein wirklich guter Lehrer würde es diesen Schülern ermöglichen, nicht nur „kompetente“, sondern tatsächlich „gute“ Noten bei demselben Test zu erzielen.

An dieser Stelle könnte ich einige meiner Bedenken bezüglich des Modells erwähnen. Zum Beispiel behaupten die Modellentwickler, sie würden einige der Schwierigkeiten bei der Bewertung der Unterrichtsqualität angehen. Habe ich genug Gründe, sie zu glauben? Bezirke mit geringerem Einkommen weisen niedrigere erwartete Werte für „Bezirke“ und „Schulen“ auf. Angenommen, eine Nachbarschaft hat eine erwartete Punktzahl von 2,5. Ein Lehrer, der einen Durchschnitt von 3 erreicht, erhält eine gute Bewertung. Dies kann dazu führen, dass die Lehrer eher auf die Punktzahl 3 als auf die Punktzahl 4 oder 5 abzielen. Mit anderen Worten, die Lehrer streben eher nach Mittelmäßigkeit als nach Perfektion. Wollen wir, dass das passiert? Schließlich funktioniert das Modell, obwohl es mathematisch einfach ist, ganz anders als die menschliche Intuition. Infolgedessen haben wir keine offensichtliche Möglichkeit, das Modell zu validieren oder zu bestreiten. ' s Entscheidung. Das unglückliche Beispiel von Frau Isaacson zeigt, wozu dies führen kann. Wollen wir uns in etwas so Wichtigem blind auf den Computer verlassen?

Beachten Sie, dass dies eine Erklärung für einen Laien ist. Ich bin hier einigen möglicherweise kontroversen Themen aus dem Weg gegangen. Ich wollte zum Beispiel nicht sagen, dass Schulbezirke mit niedriger Einkommensstruktur voraussichtlich schlechter abschneiden, weil dies für einen Laien nicht gut klingt.

Ich bin auch davon ausgegangen, dass das Ziel darin besteht, eine einigermaßen faire Beschreibung des Modells zu geben. Aber ich bin mir ziemlich sicher, dass dies hier nicht das Ziel von NYT war. Zumindest ein Teil des Grundes, warum ihre Erklärung schlecht ist, ist meiner Meinung nach absichtliche FUD.

Sheldon Cooper
quelle

Vielleicht würde ich den zweiten Satz des letzten Absatzes dahingehend ändern, dass er lautet: "Auch wenn 65 ihrer 66 Schüler beim Staatstest" gut "abgeschnitten haben, hätten sie höchstwahrscheinlich das gleiche Ergebnis erzielt, selbst wenn sie einen unfähigen Lehrer gehabt hätten."

Wayne

11

"Ihre Lehrpunktzahl hängt davon ab, wie gut Ihre Schüler im Vergleich zu einer Vorhersage auf der Grundlage von

Was sie vorher wussten, gemessen an einem Vortest,
Wie gut wir denken, dass die Schüler lernen können, basierend auf dem, was wir individuell über sie wissen (ihre "Eigenschaften"),
Und wie gut die Schüler im Durchschnitt in Ihrem Distrikt, in Ihrer Schule und in Ihrem Klassenzimmer abschneiden (wenn es in Ihrem Klassenzimmer andere Lehrer gibt).

„Mit anderen Worten, wir evaluieren Sie auf der Grundlage der Menge des Lernens , die gemessen wurde, nachdem Factoring bei der Vorbereitung und Eigenschaften Ihrer Studenten und die typischen Leistungen aller Schüler in den Einstellungen wie Ihre mit den Ressourcen, die Sie zur Verfügung steht.

"Auf diese Weise spiegelt Ihre Punktzahl wider, was Sie zu den Schülerleistungen beigetragen haben, sofern wir das feststellen können. Natürlich können wir nicht alles wissen: Wir wissen, dass Sie einzigartige und besondere Schüler hatten und dass die Situation, mit der Sie konfrontiert waren, niemals dupliziert werden konnte. Deshalb haben wir Ich weiß, dass diese Punktzahl nur eine Schätzung ist, die unvollkommen widerspiegelt, wie gut Sie unterrichtet haben. Sie ist jedoch fairer und genauer als eine Schätzung, die ausschließlich auf Nachprüfungen oder auf rohen Testgewinnen Ihrer Klasse basiert. "

whuber
quelle

2

NB Bitte Attribut nicht , diese Gedanken zu mir! Ich gebe nur mein Bestes, um das angegebene Modell wie gewünscht zu artikulieren und zu verteidigen. Ob dieses Modell geeignet, anwendbar, gut geeignet usw. ist, ist eine separate Frage.

whuber

(+1) Der letzte Absatz ist sehr gut formuliert.

Chl

2

Hier gibt es einfach nichts zu verstehen.

Okay, es ist nur ein Standardmodell für lineare Regression. Es wird davon ausgegangen, dass die Punktzahl eines Schülers als eine lineare Funktion mehrerer Faktoren beschrieben werden kann, einschließlich der Effizienzkoeffizienten von Schule und Lehrer. Daher werden alle Standardprobleme linearer Modelle gemeinsam behandelt, hauptsächlich die Tatsache, dass es sich um eine große Annäherung an eine nichtlineare Zahl handelt Welt und kann genauso gut perfekt oder peinlich schlecht funktionieren, abhängig von einer Situation und davon, wie weit man versuchen würde, damit zu extrapolieren. (Allerdings sollte man davon ausgehen, dass die Autoren des Technikers dies überprüft haben und festgestellt haben, dass es in Ordnung ist ;-)).

Das eigentliche Problem ist jedoch, dass dies ein analytisches Instrument ist, das nicht zur Bewertung der Leistungen von Personen verwendet werden sollte - auf diese Weise (völlig unabhängig davon, ob die Noten fair sind oder nicht) versucht jeder Bewerter, seine Note zu verstehen (wahrscheinlich in Hoffnung) von der Optimierung) wird nur hoffnungslose Verwirrung stoßen, wie in diesem Fall.

quelle

3

"Hier gibt es einfach nichts zu verstehen - es ist nur ein Standardmodell für lineare Regression" - teehee .... so ist das ein Trost für Mathematik. Ich nehme an, Sie hatten noch nie das Vergnügen, Grundstudiengänge in Statistiken zu unterrichten, zum Beispiel für Soziologie oder, Gott helfe mir, für Kommunikations-Majors.

Fabians

@fabians Das beweist nur, dass es meine Sache ist - es ist das größte Manko dieses Ansatzes, Menschen mit komplexeren mathematischen Dingen als dem Zählen zu konfrontieren =] Aber ich werde versuchen, es neu zu formulieren.

Dies ist eine berechtigte Kritik - insbesondere der Teil über die Annahme von Linearität -, die jedoch nicht wirklich auf die ursprüngliche Frage reagiert (es sei denn, Sie möchten den hypothetischen "Laien" beleidigen).

whuber

Gleichungen in den Nachrichten: Übersetzen eines mehrstufigen Modells für ein allgemeines Publikum

Antworten: