Wie kann man die Gewinner einer regionalen Wissenschaftsmesse fair ermitteln?

9

Ich brauche Hilfe, um herauszufinden, wie die Gewinner unserer Wissenschaftsmesse richtig berechnet werden können. Ich möchte nicht, dass meine Unkenntnis von Statistik und Mathematik die Gewinnchancen eines Kindes beeinträchtigt. (viele Stipendien- und Aufstiegsvorteile stehen auf dem Spiel). Vielen Dank im Voraus für Ihre Hilfe.

Zunächst ein kleiner Hintergrund darüber, wie wir die Dinge eingerichtet haben:

Unsere Messe hat in der Regel rund 600 studentische Projekte. Diese Projekte werden von einzelnen Studenten oder einem Team von Studenten abgeschlossen und präsentiert. Ein Team kann aus 2 oder 3 Kindern bestehen.

Die Schüler sind in zwei Abteilungen unterteilt: Grundschule (Klasse 6-8) und Sekundarstufe (Klasse 9-12). Jede Abteilung hat unterschiedliche Kategorien: 9 Kategorien für Grundprojekte und 17 Kategorien für Projekte der Sekundarabteilung.

Für jede Kategorie in jeder Division werden Auszeichnungen für den ersten, zweiten und dritten Platz vergeben. Lobende Erwähnungen werden auch für Platzierungen vergeben, die über den dritten Platz hinausgehen.

Für jedes Projekt vergeben wir zwischen 4 und 6 Richter. Wir machen unsere Aufgaben basierend auf den Qualifikationen der Richter, ihrer Kategoriepräferenz und ihrer Erfahrung als Richter in der Vergangenheit. (Erfahrene werden den Senior Division Projekten zugeordnet).

Wie die Juroren ein Projekt bewerten:

Für jedes Projekt gibt es 5 Kriterien, denen Punkte zugewiesen werden. Jedes Kriterium kann zwischen 1 und 20 Punkten vergeben werden. Allgemeine Kriterien sind:

  • Gesamtziel + Hypothese + Ressourcennutzung ( 1..20 )
  • Design + Verfahren ( 1..20 )
  • Datenerfassung + Ergebnisse ( 1..20 )
  • Diskussion + Fazit ( 1..20 )
  • Interview ( 1..20 )

Für Teamprojekte wird ein sechstes Kriterium bewertet, das als "Teamabzug" bezeichnet wird. Dabei kann ein Richter Punkte ( bis zu 15 ) für Teamkollegen abziehen , die nicht teilgenommen haben oder nicht erschienen sind.

  • Teamabzug ( 0 ..- 15 )

Ein Richter kann also jedes Projekt zwischen 5 und 100 Punkten bewerten. Wenn das Projekt ein Teamprojekt ist, kann die Punktzahl um 15 Punkte reduziert werden.

Rohdaten:

Innerhalb weniger Stunden sammeln wir bis zu 3.600 Punkte von Richtern. Diese Bewertungen werden in eine Datenbank eingegeben, in der ich alle Arten von Sortieren, Mitteln, Standardabweichungsberechnungen usw. durchführen kann. Ich weiß nur nicht genau, was ich mit diesen Rohbewertungen tun soll. Im Moment mache ich für jedes Projekt einen einfachen Durchschnitt, aber ich mache mir Sorgen, dass ich mich nicht auf Vorurteile, Teamabzüge oder eine Reihe anderer Dinge einstelle, die ich nicht in Betracht ziehe.

Erwünschtes Ergebnis:

Am Ende möchte ich die Ergebnisse so verarbeiten, dass ich Projekte für den ersten, zweiten und dritten Platz für jede Kategorie vergeben und dann für die nachfolgenden Plätze Auszeichnungen vergeben kann. Ich möchte zuversichtlich sein, dass die Positionen korrekt berechnet wurden und die Kinder, die gewinnen, die Anerkennung (und die Preise) verdienen.

Vielen Dank für das Lesen meiner langen Frage und für Ihre Hilfe, um dies herauszufinden. Gerne beantworte ich Ihre weiteren Fragen.

Mike Davie
quelle
1
Interessante und schwierige Frage, und Sie haben einige der wichtigsten Themen angesprochen. Wie viele Richter insgesamt, wie viele Projekte würde jeder Richter beurteilen? (Eine Vorstellung von der Reichweite sowie dem Durchschnitt wäre gut). Schließen sich die 26 Kategorien auch gegenseitig aus? Ich habe eine Ahnung, dass die beste Antwort vielleicht darin besteht, nur den Durchschnitt für jedes Projekt zu ermitteln, aber es könnte möglich sein, sich an die Richter anzupassen. Ich werde die Antworten mit Interesse lesen!
Peter Ellis
Vielen Dank für Ihr anfängliches Interesse. Ich habe der Antwort unten weitere Informationen hinzugefügt. Wenn Sie einen Einblick haben, würde ich mich über Ihre Hilfe freuen.
Mike Davie

Antworten:

2

Ich denke, dass "Antwort" möglicherweise ein zu großzügiges Etikett für meine Gedanken hier ist. Ich liebe explorative Datenanalysen und bin ein großer Boxplot-Fan, was sich in meinen Kommentaren widerspiegeln wird.

Hallo, das sind viele Punkte. :) Es hört sich so an, als hätten Sie mindestens 78 der 600 Projekte in den Top 3 ( [9+17]x3) und die ehrenwerten Erwähnungen. Normalerweise würde ich sagen, dass Sie eine Stichprobe von oben und in der Mitte jeder Kategorie erstellen müssen, um eine Bewertung durchzuführen, aber das wäre in Ihrem Fall aufgrund der Zahlen, die Sie haben, sehr lästig - und Sie müssen nur die Bewertung abschließen. :) :)

Ich hoffe, dass Ihnen möglicherweise ein Statistikpaket zur Verfügung steht, da ich einige Vorschläge habe, die Sie unten verwenden können.

Haben Sie sich die Verteilung der Punktzahlen innerhalb der einzelnen Kategorien angesehen? Sind die Top 3, 5 oder 8 Projekte sehr nahe beieinander? Das würde darauf hindeuten, dass die Qualität der Projekte sehr ähnlich ist und egal was Sie tun, es wird wahrscheinlich zumindest eine Wahrnehmung von Willkür in Bezug auf die Endergebnisse geben.

Ich bin mir nicht sicher, wie viele Projekte jeder Richter bewertet. Unter der Annahme, dass sie eine vernünftige Zahl erreichen (sagen wir> 10, obwohl je höher desto besser hier), könnten Sie für jeden Richter den Median und den Interquartilbereich für die Gesamtpunktzahl berechnen, die für jedes von ihnen bewertete Projekt vergeben wird (Sie haben so viele Attribute, dass dies wahrscheinlich nicht der Fall ist) einen Blick wert). Scheinen Richter besonders hohe oder besonders niedrige Punktzahlen zu geben? Scheinen Richter in der Mitte konstant zu punkten, so dass sie möglicherweise 10 geben, kann dies durch einen vergleichsweise kleinen Interquartilbereich und einen Gesamtpunktzahlmedian um die Mitte des Bereichs möglicher Werte gezeigt werden.

Für die Teamprojekte können Sie ihre Platzierung auf der Grundlage der Gesamtpunktzahl mit ihrer Platzierung vergleichen, sobald der Teamabzug angewendet wurde. Beeinflussen die Teamabzüge Teams, die sonst unter den Top 3 wären?

Dies sind nur Vorschläge, um Ihnen den Einstieg zu erleichtern. Ich denke, die Visualisierung der Daten in dieser Richtung würde Ihnen einige gute Indikatoren dafür geben, ob die Platzierungen fair erscheinen.

Update: Dies ist ein interessant schwieriges Problem, das Sie haben. Es hört sich so an, als ob jeder einzelne Richter nicht genügend Projekte bewertet, um einen Gewichtungsfaktor für jeden Richter zu ermitteln (um die Vorurteile der Richter zu berücksichtigen), da wir nicht über genügend Daten verfügen, um inter messen zu können - Zuverlässigkeit der Bewerter zwischen den Richtern, es gibt einfach nicht genug Überschneidungen für Richter, die bei denselben Projekten punkten, um dies zu tun. Haben Sie sich den Bewertungsbereich für die Top-Projekte angesehen - gab es deutliche Unterschiede zwischen ihnen und Projekten mit niedrigerer Punktzahl (natürliche Grenzen?), Wie nahe waren die Top-Projekte in der Bewertung?

Aus Neugier erhielten die Richter Bewertungskriterien, so dass sie wenig Flexibilität bei der Bewertung der einzelnen Kriterien hatten (z. B. 1 Punkt für die Bereitstellung einer Nullhypothese, 1 Punkt für die Bereitstellung einer oder mehrerer alternativer Hypothesen ...) oder Wussten sie nur, wie viele Punkte sie insgesamt vergeben konnten und der Rest wurde ihnen überlassen? Wenn sie einen Bewertungsleitfaden hätten, wäre ich sicherer, dass die Ergebnisse ziemlich genau waren.

Michelle
quelle
1
Auch ich wäre neugierig auf die Verbreitung der Punktzahlen - gibt es eindeutig einige "Top-Punktzahlen" oder gibt es einen Klumpen, und wer oben herauskommt, ist ein bisschen ... undurchsichtig in Bezug auf den Prozess. Wie der College-Zulassungsprozess werden diese Kinder später erleben :)
Fomite
Danke Michelle für deine Gedanken. Ich weiß es wirklich zu schätzen, dass Sie sich die Zeit genommen haben. Um Ihre Fragen zu beantworten, beurteilen Richter nur eine kleine Anzahl von Projekten. Wir haben Mindestanforderungen für jede Abteilung: 4 Mal für die Grundschule und 5 oder 6 Mal für die Sekundarstufe (5 Mal für Junioren der High School und 6 Mal für Senioren).
Mike Davie
Ich muss das oben klarstellen. Die Mindestpunktzahl gilt pro Projekt, nicht wie oft die Juroren Projekte während der Messe bewerten. Ein typischer Richter beurteilt während der Messe zwischen 8 und 15 Projekte. Diese Zahl hängt von der Verfügbarkeit der Richter, ihren Qualifikationen, ihrer Hilfsbereitschaft usw. ab.
Mike Davie
2
Gute Antwort Michelle. Einige Ideen von mir: 1) Geben Sie den Richtern auf jeden Fall eine Art Rubrik, um zu versuchen, gemeinsame Standards zu fördern; 2) versuchen Sie, wenn möglich die gleiche Anzahl von Richtern pro Projekt zu haben (da sonst die Projekte mit weniger Richtern eine höhere Varianz und damit eine größere Chance haben, nach oben oder unten zu gelangen) und 3) ich denke, Sie müssen Verwenden Sie nur einen Durchschnitt, aber wenn Sie über das Fachwissen und die Software verfügen, können Sie ein Modell mit gemischten Effekten mit Judge als Zufallseffekt anpassen und prüfen, ob dies das Ergebnis ändert. Was ist, wenn es so ist? Vermutlich noch den Durchschnitt verwenden ....
Peter Ellis
Nochmals vielen Dank für alle Beiträge. Nachdem ich dies eine Weile in meinem Kopf herumwirbeln ließ, beschloss ich zu sehen, wie Projekte auf internationaler Ebene bewertet werden (ein Wettbewerbsschritt über unserer Messe). Die internationale Messe heißt ISEF. Wir schicken unsere Top 5 Studenten jedes Jahr zum ISEF.
Mike Davie