Wie erklärt man Hypothesentests für Jugendliche in weniger als 10 Minuten?

18

Seit über einem Jahr unterrichte ich eine Stunde lang Statistik. Jedes Mal, wenn eine andere Gruppe von Kindern vorbeikommt, gebe ich ihnen den Unterricht.

Das Thema der Klasse ist, dass wir ein Experiment durchführen, bei dem 10 Kindern (die gerne Coca-Cola trinken) zwei (nicht gekennzeichnete) Tassen gegeben werden, eine mit Coca-Cola und eine mit Pepsi. Die Kinder werden gebeten, anhand von Geschmack und Geruch festzustellen, in welcher Tasse sich das Coca-Cola-Getränk befindet.

Ich muss ihnen dann erklären, wie sie entscheiden können, ob die Kinder raten oder ob sie (oder zumindest genug von ihnen) wirklich die Fähigkeit haben, den Unterschied zu schmecken. Sind 10 von 10 Erfolgen gut genug? was ist mit 7 von 10?

Selbst nachdem ich diesen Kurs zehnmal gegeben habe (in verschiedenen Variationen), habe ich immer noch nicht das Gefühl, dass ich nicht weiß, wie ich das Konzept so vermitteln kann, dass die meisten Teilnehmer es verstehen.

Wenn Sie Ideen dazu haben, wie das Konzept des Hypothesentests, der Nullhypothese, der Alternativhypothese, der Ablehnungsbereiche usw. auf einfache (!) Und intuitive Weise erklärt werden kann - ich würde gerne wissen, wie.

Tal Galili
quelle
1
Manchmal hilft das Nachdenken über das "Warum", um ein besseres Verständnis für das "Wie" zu erlangen. Überprüfen Sie also stats.stackexchange.com/questions/6966/…
Tim
5
(+1) Ich denke, es hängt davon ab, wie Sie 10 Minuten definieren !
Kardinal
1
Vor ein paar Wochen habe ich unter stats.stackexchange.com/a/130772 versucht , diese - oder zumindest eine bemerkenswert ähnliche - Frage zu beantworten . Ist der Thread nicht ein Duplikat von diesem?
whuber
1
@ Kardinal - ich meine wörtlich 10 Minuten. Für diese Art von Thema und für Menschen ohne Hintergrund ist dies SEHR kurze Zeit. --------------- Sehr geehrte Damen und Herren - Ich habe Ihre Antwort geliebt, aber es wäre großartig, wenn die Schüler wissen würden, was Wahrscheinlichkeit und das Verhältnis zwischen Dichte und Fläche sind. Dies sind Konzepte, die den Schülern beigebracht werden, aber nicht den Schülern. Ich möchte nicht, dass sie das Testen von Hypothesen vollständig verstehen, sondern dass sie genug davon behalten, damit sie ein Gefühl dafür bekommen, wenn sie eine Entscheidung darüber treffen, was jede Ablehnungsregion bedeutet.
Tal Galili
4
Vielen Dank für die Klarstellung, Tal. Sie scheinen immer noch darauf hinzuweisen, dass es sich bei einem anderen Thread um ein Duplikat Ihrer Frage handelt, aber dass Sie dort einfach keine angemessene Antwort gefunden haben. Eine gute Möglichkeit, Ihre Frage von dieser zu unterscheiden, besteht darin, bestimmte Anforderungen an die Höhe der Ausstellung und an das zu stellen, von dem wir annehmen können, dass das Publikum weiß, wie Sie es in Ihrem Kommentar begonnen haben.
whuber

Antworten:

10

Ich denke, Sie sollten sie zuerst fragen, was es ihrer Meinung nach wirklich bedeutet, über eine Person zu sagen, die den Unterschied zwischen Coca-Cola und Pepsi erkennen kann. Was kann eine solche Person tun, was andere nicht können?

Die meisten von ihnen haben keine solche Definition und können auf Anfrage auch keine vorlegen. Eine Bedeutung dieses Ausdrucks ist jedoch, was Statistik uns gibt, und das können Sie mit Ihrer Klasse "Geschmack für Statistik" mitbringen.

Einer der Punkte der Statistik ist die genaue Beantwortung der Frage: "Was bedeutet es, von jemandem zu sagen, dass er oder sie in der Lage ist, den Unterschied zwischen Coca-Cola und Pepsi zu erkennen?"

Die Antwort lautet: Er oder sie ist besser als ein Rätselraten, um Tassen in einem Blindtest zu klassifizieren. Die Rätselmaschine kann den Unterschied nicht erkennen, sie rät einfach die ganze Zeit. Das Rätselraten ist eine nützliche Erfindung für uns, weil wir wissen, dass es nicht die Fähigkeit hat. Die Ergebnisse des Ratesystems sind nützlich, weil sie zeigen, was wir von jemandem erwarten sollten, dem die Fähigkeit fehlt, auf die wir testen.

Um zu testen, ob eine Person in der Lage ist, den Unterschied zwischen Coca-Cola und Pepsi zu erkennen, muss man die Klassifizierung der Tassen in einem Blindtest mit der Klassifizierung vergleichen, die eine Rätselmaschine durchführen würde. Nur wenn er / sie besser ist als die Vermutungsmaschine, kann er / sie den Unterschied erkennen.

Wie stellen Sie dann fest, ob ein Ergebnis besser ist als ein anderes? Was ist, wenn sie fast gleich sind?

Wenn zwei Personen eine kleine Anzahl von Bechern klassifizieren, ist es nicht wirklich fair zu sagen, dass einer besser ist als der andere, wenn die Ergebnisse fast gleich sind. Vielleicht hatte der Gewinner heute einfach Glück und die Ergebnisse wären umgekehrt, wenn der Wettbewerb morgen wiederholt worden wäre?

Wenn wir ein vertrauenswürdiges Ergebnis haben wollen, kann es nicht auf einer winzigen Anzahl von Klassifikationen beruhen, denn dann kann der Zufall über das Ergebnis entscheiden. Denken Sie daran, Sie müssen nicht perfekt sein, um die Fähigkeit zu haben, Sie müssen nur besser sein als die Rätselmaschine. In der Tat kann, wenn die Anzahl der Klassifikationen zu gering ist, nicht einmal eine Person, die Coca-Cola immer korrekt identifiziert, zeigen, dass sie besser ist als die Rätselmaschine. Wenn zum Beispiel nur eine Tasse zu klassifizieren ist, hat sogar die Rätselmaschine eine 50-prozentige Chance, vollständig korrekt zu klassifizieren. Das ist nicht gut, denn das bedeutet, dass wir in 50 Prozent der Versuche fälschlicherweise den Schluss ziehen würden, dass ein guter Coca-Cola-Identifikator nicht besser ist als die Rätselmaschine. Sehr unfair.

Je mehr Tassen es zu klassifizieren gibt, desto mehr Chancen ergeben sich für die Rätselmaschine und desto mehr Chancen bietet die gute Coca-Cola-Kennung.

10 Tassen könnten ein guter Anfang sein. Wie viele richtige Antworten muss ein Mensch dann haben, um zu zeigen, dass er oder sie besser ist als die Maschine?

Fragen Sie sie, was sie erraten würden.

Lassen Sie sie dann die Maschine benutzen und herausfinden, wie gut sie ist, dh lassen Sie alle Schüler eine Reihe von zehn Vermutungen erstellen, z. mit einem Würfel oder einem Zufallsgenerator auf dem Smartphone. Um pädagogisch zu sein, sollten Sie eine Reihe von zehn richtigen Antworten vorbereiten, anhand derer die Vermutungen bewertet werden sollen.

Schreiben Sie alle Ergebnisse an die Tafel. Drucken Sie die sortierten Ergebnisse an die Tafel. Erklären Sie, dass ein Mensch besser als 95 Prozent dieser Ergebnisse sein muss, bevor ein Statistiker seine Fähigkeit anerkennt, den Unterschied zwischen Coca-Cola und Pepsi zu erkennen. Zeichnen Sie die Linie, die die 95% schlechtesten Ergebnisse von den 5% besten Ergebnissen trennt.

Lassen Sie dann einige Schüler versuchen, 10 Tassen zu klassifizieren. Inzwischen sollten die Schüler wissen, wie viele richtige sie haben müssen, um zu beweisen, dass sie den Unterschied erkennen können.

All dies ist jedoch nicht in 10 Minuten realisierbar.

Hans Ekbrand
quelle
2
Danke Hans. Ich mag Ihre Antwort aus mehreren Gründen. 1) Weil Sie eine neue Idee auf den Tisch bringen, "die Kinder mit einer Rätselmaschine konkurrieren zu lassen". Ich gebe zu, der Gedanke war mir durch den Kopf gegangen, aber Ihre Antwort bestätigt meine Meinung, dass dies besser funktionieren könnte, als dass sie mit der theoretischen Verteilung der Nullhypothese p = .5 konkurrieren. 2) Weil du verstehst, dass nicht alles, was du vorschlägst, in 10 Minuten machbar war :)
Tal Galili
2
Vielen Dank, Tal. a) Ich denke, dass die Vermutungsmaschine viel intuitiver ist als die theoretische Verteilung. b) Ich hoffe, Sie können mehr als 10 Minuten für Hypothesentests einplanen.
Hans Ekbrand
Warum 95%, ha ha?
Mark L. Stone
2

Das Arbeiten mit Limonaden macht Spaß, und der Test, ob Jugendliche tatsächlich den Unterschied zwischen Limonaden erkennen können, ist sinnvoll, wenn Sie über ausreichende Kenntnisse im Hypothesentest verfügen. Das Problem könnte sein, dass diese Frage: "Kannst du tatsächlich den Unterschied zwischen Limonaden erkennen?" wird durch viele andere Dinge in den Köpfen von Teenagern kompliziert, wie "Wer ist gut und wer ist schlecht darin, Limonaden zu testen?", "Gibt es tatsächlich einen Unterschied zwischen den Limonaden?"

Ich habe noch nie Statistiken für Teenager unterrichtet, aber ich habe immer davon geträumt, einen geladenen Würfel oder eine voreingenommene Münze zu verwenden. Stirb interessanter, aber statistisch herausfordernder. Mit dem Münzbeispiel ist eine Münze entweder fair oder nicht fair. Es ist nicht gut, Münzen zu werfen. Es gibt keine Entscheidung, ob es Kopf oder Zahl ist.

Wenn wir eine Münze werfen, für die 100 Dollar gewonnen werden, und es kommt Kopf hoch (Sie gewinnen!), Könnte ich sagen: "Hey. Woher weiß ich, ob diese Münze fair ist? Ich wette, Sie haben den Wettbewerb manipuliert!" Sie sagen: "Oh ja? Beweisen Sie es." Die naheliegende Lösung besteht darin, die Münze immer wieder umzublättern, um festzustellen, ob mehr Kopf als Zahl auftaucht. Wir drehen es um und es kommt Köpfe hoch. "Ahha! Ich sage. Seee! Es ist in Richtung Köpfe voreingenommen!" Und so weiter.

Gute voreingenommene Münzen gibt es nicht, aber voreingenommene Würfel - Sie können eine bei Amazon kaufen. Sie könnten den Schülern einen Preis anbieten, wenn sie einige Rollen gewinnen können. Aber du weißt, du wirst gewinnen. Sie werden wütend sein. Sie sagen, OK, ich gebe Ihnen den Preis, wenn Sie beweisen können, dass dieser Würfel voreingenommen ist, mit etwa 95% Selbstvertrauen.

Dann weiter mit Soda. Der Preis könnte sogar eine Soda-Party sein! "Hey, ich frage mich, ob ihr den Unterschied zwischen Cola und Pepsi sehen könnt ..."

tim.farkas
quelle
6
" Es ist nicht gut, Münzen zu werfen. " - Nachdem ich Persi Diaconis nach Belieben mit den Köpfen drehen sah, glaube ich, dass es solche gibt.
Glen_b
Ha. Jetzt werde ich versuchen, es gut zu machen!
tim.farkas
1
Diaconis ist Statistiker und Zauberer. Es gibt Videos von ihm, die es auf youtube demonstrieren (Köpfe drehen, wenn er will).
Glen_b
Hallo Tim. Sie bringen nette Punkte mit, aber sie gehen nicht direkt auf meine Frage ein. Angenommen, Ihre Schüler haben x von 10 Tests richtig erhalten (ein Test wählt die richtige Marke aus, basierend auf dem Geschmack) - wie können Sie erklären, warum Sie entscheiden, ob sie bei dieser Entscheidung gut oder schlecht sind?
Tal Galili,
Auch hier können Sie das Münzwerfen verwenden. Wenn sie einmal probieren und es richtig machen, ist es nicht sehr überzeugend, denn wenn Sie eine Münze werfen, sollte es in 50% der Fälle "richtig" sein! Wenn Sie es zweimal richtig machen, ist die Wahrscheinlichkeit, dass Sie das durch Zufall bekommen, die gleiche, als würden Sie zwei Köpfe umdrehen = .5 * .5 = .25. 3-mal hintereinander ist .125, 4 ist .0625, 5 ist .0313. Sie müssen den Grad des Vertrauens auswählen, den Sie möchten. Sind 50% sicher genug? wie wäre es mit 25%? R. Fisher meint, 95% seien gut genug, und das nutzen viele Wissenschaftler. Dies wird technisch als Vorzeichentest bezeichnet. Siehe unten.
tim.farkas
2

Stellen Sie sich vor, jemand übt mit einer Schrotflinte, die Granulatstöße in Richtung Lauf schießt.

Nullhypothese: Ich bin ein guter Schütze und mein Lauf ist perfekt im Ziel. Nicht links, nicht rechts, sondern direkt drauf. Mein Fehler ist 0.

Alternative Hypothese: Ich bin ein schlechter Schütze und mein Lauf ist vom Ziel entfernt. Nur links oder rechts vom Ziel. Mein Fehler ist e> 0 oder e <0.

Da jede Messung einen bestimmten durchschnittlichen Fehler (dh einen Standardfehler) aufweist, ist eine Messung mit der Angabe "Off Target" möglich, auch wenn ich gerade schieße. Ich muss mein Ziel nicht einige Male "treffen" (auch wenn jeder Schuss ein Burst / Spread ist), bevor Sie mich als schlechten Schützen bezeichnen und die alternative Hypothese auswählen können.

maurice
quelle
1
Willkommen zum Lebenslauf. Könnten Sie Ihre Erklärungen auf die Null und Alternative beziehen? Vielleicht könnte eine zusätzliche Diskussion helfen, diese zu motivieren. Es gibt auch einige Nullen und Alternativen, für die diese Erklärung nicht geeignet wäre. Möglicherweise müssen Sie angeben, für welche Hypothesen dies eine geeignete Erklärung wäre (z. B. Punkt-Null,
zweiseitig
1

Angenommen, die Kinder können den Unterschied nicht erkennen und entscheiden sich zufällig. Dann hat jedes Kind eine 50% ige Chance, es richtig zu erraten. Sie erwarten also (erwarteter Wert), dass in diesem Fall 5 Kinder es richtig machen und 5 Kinder sich irren. Natürlich ist es auch möglich, dass 6 Kinder irren und 4 es richtig machen, und so weiter. Auf der anderen Seite ist es möglich, dass sich einer von ihnen irrt, auch wenn die Kinder den Unterschied bemerken.

Intuitiv ist klar, dass es ziemlich unwahrscheinlich ist, dass alle Kinder die richtige Antwort geben , wenn die Kinder zufällig raten . In diesem Fall würde man eher glauben, dass die Kinder tatsächlich den Unterschied zwischen beiden Getränken schmecken könnten. Mit anderen Worten, wir erwarten nicht, dass unwahrscheinliche Ereignisse beobachtet werden. Wenn wir also ein Ereignis beobachten, das im 50: 50-Scanario unwahrscheinlich ist, glauben wir eher, dass dieses Szenario falsch ist und die Kinder zwischen Cola und Pepsi unterscheiden können.

αα0,00098αα=0,05

Berechnen Sie nun die Binomialverteilung mit ihnen. P(Alle Kinder erraten es richtig)=0,00098, P(nur ein Kind verwechselt Cola mit Pepsi)=0,01074 und P(nur zwei Kinder verwirren)=0,05468. Offensichtlich werden Sie nur den Schluss ziehen, dass es einen Unterschied zwischen beiden Getränken gibt, wenn höchstens ein Kind sie verwirrt.

Dies ist der Moment, in dem Sie das Experiment durchführen. Tun Sie es gründlich mit allen 10 Schülern, auch wenn Sie gerade berechnet haben, dass Sie nach dem zweiten Fehler aufhören könnten. Notieren Sie dann die Ergebnisse und bewahren Sie sie auf. Sie benötigen die Ergebnisse, wenn Sie ihnen Metaanalysen erklären möchten.

(Übrigens geht es im historischen Beispiel darum, zu probieren, ob die Milch oder der Tee zuerst in die Tasse gegossen wurde. Die Dame, die den Tee probiert.)

Horst Grünbusch
quelle
0

Das Experiment zur Verkostung von Koks für Kinder ist ein gutes Beispiel für die Einführung von Hypothesentests, wie das Experiment zur Verkostung von Tee für Frauen gezeigt hat. Die Auswertung dieser Experimente ist jedoch nicht sehr intuitiv, da die Nullhypothese die Binomialverteilung mit p = 0,5 beinhaltet und nicht einfach ist.

In meiner üblichen Einführung in das Testen von Hypothesen versuche ich, diesen Nachteil zu überwinden, indem ich nur den Fall mit allen Erfolgen in der Binomialverteilung verwende, dessen Wahrscheinlichkeit auch von Leuten, die nichts über die Binomialwahrscheinlichkeit wissen, als p ^ n berechnet werden kann.

In meinem Lieblingsbeispiel mag ich geröstete Kastanien und kaufe eine Handvoll von einem Straßenhändler. Ich bekomme sie zu einem reduzierten Preis, weil sie aus einer großen Tüte stammen, in der 10% der Kastanien ein Wurmloch haben. Hier versuche ich zu verdeutlichen, dass die Tüte gut gemischt wurde, sodass meine Handvoll Kastanien eine Zufallsstichprobe der Kastanien ist In der Tüte bedeutet die Aussage des Verkäufers, dass jede Kastanie eine unabhängige Wahrscheinlichkeit von 10% hat, ein Wurmloch zu haben.

Während ich meine gerösteten Kastanien genieße, nehme ich sie nacheinander und überprüfe sie auf Wurmlöcher, bevor ich sie esse.

Wenn ich die erste Kastanie überprüfe, sehe ich ein Wurmloch und frage mich, ob der Verkäufer mich angelogen hat - ich erkläre hier das Wundern, das meine Nullhypothese p = 10% und meine Alternativhypothese p> 10% setzt, und setze sie in der Tafel. Habe ich einen Grund zu bezweifeln, dass p = 10% ist, wenn aus einer eine schlechte Kastanie geworden ist? Nun, 10% der Leute, die das gleiche Experiment durchführen, würden das gleiche Ergebnis erzielen, also kann ich mir vorstellen, dass ich einfach Pech hatte.

Dann nehme ich die zweite Kastanie und sie hat auch ein Wurmloch. Zwei von zwei haben eine Wahrscheinlichkeit von nur 1%, wenn der Verkäufer mich nicht belogen hat. Ich hätte ein großes Pech haben können, aber ich werde dem Verkäufer gegenüber sehr misstrauisch.

Auch die dritte Kastanie hat ein Wurmloch. Es wäre nicht unmöglich, die drei Kastanien mit Würmern aus drei herauszuholen, vorausgesetzt, der Verkäufer ist fair und p = 10%, aber es wäre sehr unwahrscheinlich (Wahrscheinlichkeit = 0,1%). Daher habe ich jetzt einen starken Grund, an der Arbeit des Verkäufers zu zweifeln und eine Beschwerde einzureichen und eine Rückerstattung zu beantragen.

Natürlich hat diese Art von sukzessiven Tests einige theoretische Probleme, aber es ist nicht wichtig, die Idee eines Hypothesentests aufzuzeigen. Tatsächlich besteht die wichtigste Idee, die in diesem Beispiel nicht behandelt wird, darin, dass wir in Hypothesentests die Wahrscheinlichkeit der Ergebnisse berechnen, die wir erzielen, oder etwas Schlimmeres - in meinem Beispiel wurde dies vermieden, indem nur das schlechtestmögliche Ergebnis erzielt wurde.

Ich habe dieses Beispiel mehrmals mit Studienanfängern an der Universität verwendet - die technisch noch Teenager sind -, aber ich denke, es könnte auch bei jüngeren Teenagern gut funktionieren.

Pere
quelle