Was ist die Erklärung Ihres Lieblingslaien für ein schwieriges statistisches Konzept?

36

Ich höre sehr gerne einfache Erklärungen zu komplexen Problemen. Was ist Ihre Lieblingsanalogie oder Anekdote, die ein schwieriges statistisches Konzept erklärt?

Mein Favorit ist Murrays Erklärung für die Integration mit einem Betrunkenen und ihrem Hund. Murray erklärt, wie zwei zufällige Prozesse (ein wandernder Betrunkener und ihr Hund Oliver) Einheitswurzeln haben können, aber dennoch miteinander verwandt sind (cointegriert sind), da ihre gemeinsamen ersten Unterschiede stationär sind.

Der Betrunkene macht sich von der Bar auf den Weg, um ziellos und zufällig herumzulaufen. Aber in regelmäßigen Abständen sagt sie "Oliver, wo bist du?" Und Oliver unterbricht sein zielloses Bellen. Er hört sie; sie hört ihn. Er denkt: "Oh, ich kann nicht zulassen, dass sie zu weit weg ist. Sie wird mich aussperren." Sie denkt: "Oh, ich kann nicht zulassen, dass er zu weit weg ist. Er wird mich mitten in der Nacht mit seinem Gebell wecken." Jeder beurteilt, wie weit der andere entfernt ist, und versucht, diese Lücke teilweise zu schließen.

brotchie
quelle

Antworten:

18

Ein p-Wert ist ein Maß dafür, wie peinlich die Daten für die Nullhypothese sind

Nicholas Maxwell, Data Matters: Konzeptionelle Statistik für eine zufällige Welt Emeryville CA: Key College Publishing, 2004.

Frank Harrell
quelle
15
  1. Wenn Sie Ihre Verteilung (Histogramm) aus Holz geschnitzt und versucht haben, sie an Ihrem Finger auszugleichen, ist der Gleichgewichtspunkt der Mittelwert, unabhängig von der Form der Verteilung.

  2. Wenn Sie einen Stab in die Mitte Ihres Streudiagramms platzieren und den Stab mit einer Feder an jedem Datenpunkt befestigen, ist der Ruhepunkt des Stabes Ihre Regressionslinie. [1]

[1] Dies wäre technisch gesehen die Regression der Hauptkomponenten. Sie müssten die Federn zwingen, sich nur "vertikal" zu bewegen, um kleinste Quadrate zu erhalten.

Neil McGuigan
quelle
2
Die Federkraft ist proportional zur Verformung, es handelt sich also nicht um eine Regression der kleinsten Quadrate!
Shabbychef
1
Netter Versuch! Kommt auf den Frühling an. Wenn zum Beispiel die Federkonstante 1 / Sigma ist, funktioniert das großartig;)
Neil McGuigan
2
L1y
L1L1
12

Ich habe den Weg der Betrunkenen zuvor für einen zufälligen Weg benutzt und den Weg der Betrunkenen und ihres Hundes für die Integration. Sie sind sehr hilfreich (teilweise, weil sie amüsant sind).

Eines meiner häufigsten Lieblingsbeispiele ist das Geburtstagsparadox ( Wikipedia-Eintrag ), das einige wichtige Konzepte der Wahrscheinlichkeit veranschaulicht. Sie können dies mit einem Raum voller Menschen simulieren.

Im Übrigen empfehle ich Andrew Gelmans "Teaching Statistics: A Bag of Tricks", um einige Beispiele für kreative Methoden zum Unterrichten statistischer Konzepte zu finden (siehe Inhaltsverzeichnis ). Schauen Sie sich auch seinen Aufsatz über den Kurs an, den er zum Unterrichten von Statistik unterrichtet: "Ein Kurs zum Unterrichten von Statistik auf Universitätsniveau" . Und zu "Bayes für Doktoranden der Politikwissenschaft, Soziologie, Volksgesundheit, Bildung, Wirtschaft, ..." .

Um Bayes'sche Methoden zu beschreiben, ist die Verwendung einer unfairen Münze und das mehrmalige Umwerfen ein ziemlich allgemeiner / effektiver Ansatz.

Shane
quelle
1
Es gibt keine unfaire Münze: stat.columbia.edu/~gelman/research/published/diceRev2.pdf
Tim
11

Ich möchte die Variation der Stichproben und im Wesentlichen den zentralen Grenzwertsatz anhand einer "in-class" -Übung demonstrieren. Jeder in der Klasse von etwa 100 Schülern schreibt sein Alter auf ein Blatt Papier. Alle Papierstücke haben dasselbe Format und werden nach Berechnung des Durchschnitts auf dieselbe Weise gefaltet. Dies ist die Bevölkerung und ich berechne das Durchschnittsalter. Dann wählt jeder Schüler nach dem Zufallsprinzip 10 Blätter Papier aus, schreibt das Alter auf und legt sie in die Tasche zurück. (S) er berechnet den Mittelwert und gibt den Beutel an den nächsten Schüler weiter. Schließlich haben wir 100 Stichproben von je 10 Schülern, die den Bevölkerungsdurchschnitt schätzen, den wir durch ein Histogramm und einige deskriptive Statistiken beschreiben können.

Wir wiederholen die Demonstration dieses Mal mit 100 "Meinungen", die einige Ja / Nein-Fragen aus jüngsten Umfragen wiederholen. Wenn die (britischen General-) Wahlen morgen stattfinden würden, würden Sie in Betracht ziehen, für die britische Nationale Partei zu stimmen. Die Schüler probieren 10 dieser Meinungen aus.

Am Ende haben wir die Variation der Stichproben, den zentralen Grenzwertsatz usw. sowohl mit kontinuierlichen als auch mit binären Daten demonstriert.

Graham Cookson
quelle
10

Auf jeden Fall das Monty Hall Problem. http://en.wikipedia.org/wiki/Monty_Hall_problem

Stephen Turner
quelle
1
+1 dieses Problem hat mein Gehirn beim ersten Lesen und Nachdenken verdreht - und die Lösung ist ziemlich einfach, lehrt aber viel über die Wahrscheinlichkeit.
Sharpie
1
Ich finde, das Monty-Hall-Problem ist alles andere als eine einfache Erklärung der Wahrscheinlichkeit durch Laien. Ich verstehe es, aber ich habe immer noch Schwierigkeiten, meinen Kopf darum zu wickeln, geschweige denn es gut genug zu verstehen, um es einer nicht-statistischen Person zu erklären und sie etwas daraus lernen zu lassen ist Ihr schwieriges Konzept oder die Erklärung Ihres Laien . -1 bis du es tust.
naught101
2
Der einfache Weg, das Monty Hall-Problem zu erklären, ist, sich dasselbe Problem vorzustellen, aber mit 1000 Türen - 999 von ihnen haben eine Ziege hinter sich und nur 1 von ihnen hat ein Auto dahinter. Angenommen, Sie wählen eine Tür aus, und der Host der Spielshow öffnet 998 weitere Türen und fragt Sie, ob Sie Ihre Entscheidung in die eine Tür ändern möchten, die er nicht geöffnet hat. Zu wissen , dass er nicht die Tür mit dem Auto dahinter geöffnet haben könnte, würden Sie haben zu Schalter auf die anderen Tür (oder lächerlich sicher sein , dass Sie sich in Ihrer ersten Wahl waren).
Berk U.
10

1) Eine gute Demonstration, wie "zufällig" definiert werden muss, um die Wahrscheinlichkeit bestimmter Ereignisse zu ermitteln:

Wie groß ist die Wahrscheinlichkeit, dass eine zufällige Linie, die über einen Kreis gezogen wird, länger als der Radius ist?

Die Frage hängt ganz davon ab, wie Sie Ihre Linie ziehen. Zu den Möglichkeiten, die Sie für einen am Boden gezeichneten Kreis in der Praxis beschreiben können, gehören:

Zeichnen Sie zwei zufällige Punkte innerhalb des Kreises und ziehen Sie eine Linie durch diese. (Sehen Sie, wo zwei Fliegen / Steine ​​fallen ...)

Wählen Sie einen festen Punkt auf dem Umfang und dann einen zufälligen Punkt an einer anderen Stelle im Kreis und fügen Sie diese zusammen. (Tatsächlich wird ein Stab in einem variablen Winkel durch einen bestimmten Punkt und einen zufälligen Punkt über den Kreis gelegt, z. B. wo ein Stein fällt.)

Zeichnen Sie einen Durchmesser. Wähle zufällig einen Punkt und ziehe eine Senkrechte durch diesen. (Rollen Sie einen Stock in einer geraden Linie, damit er über den Kreis läuft.)

Es ist relativ einfach, jemanden zu zeigen, der Geometrie beherrscht (aber nicht unbedingt Statistiken). Die Antwort auf die Frage kann recht unterschiedlich sein (von ungefähr 2/3 bis ungefähr 0,866 oder so).

(1210)

3) Erklären, warum die medizinische Diagnose wirklich fehlerhaft zu sein scheint. Ein Test auf Krankheit foo, der zu 99,9% genau ist, um diejenigen zu identifizieren, die sie haben, aber zu 0,1% falsch-positiv diagnostiziert, kann so oft falsch erscheinen, wenn die Prävalenz der Krankheit wirklich niedrig ist ( zB 1 in 1000), aber viele Patienten werden darauf getestet.

Dies lässt sich am besten mit reellen Zahlen erklären - stellen Sie sich vor, 1 Million Menschen werden untersucht, also haben 1000 die Krankheit, 999 werden korrekt identifiziert, aber 0,1% von 999.000 sind 999, denen mitgeteilt wird, dass sie sie haben, aber nicht. Die Hälfte derjenigen, denen gesagt wird, sie hätten es tatsächlich nicht, trotz der hohen Genauigkeit (99,9%) und der geringen Anzahl falsch positiver Ergebnisse (0,1%). Ein zweiter (idealerweise anderer) Test trennt diese Gruppen dann voneinander.

[Im Übrigen habe ich die Zahlen ausgewählt, weil sie leicht zu verarbeiten sind. Natürlich müssen sie nicht zu 100% addiert werden, da die Genauigkeit / Falsch-Positiv-Raten unabhängige Faktoren im Test sind.]

AdamV
quelle
2
Ich denke, Ihr erstes Beispiel bezieht sich auf Bertrands Paradoxon. Sehr schöne Darstellung der verschiedenen Möglichkeiten, einen Wahrscheinlichkeitsraum zu definieren!
Chl
9

Sam Savages Buch Flaw of Averages enthält viele gute Erklärungen statistischer Konzepte für Laien. Insbesondere hat er eine gute Erklärung für Jensens Ungleichung. Wenn der Graph Ihrer Kapitalrendite konvex ist, dh "Sie anlächelt", ist die Zufälligkeit zu Ihren Gunsten: Ihre durchschnittliche Rendite ist höher als Ihre durchschnittliche Rendite.

John D. Cook
quelle
6

Behar et al haben eine Sammlung von 25 Analogien für den Statistikunterricht. Hier sind zwei Beispiele:

2.9 Alle Modelle sind theoretisch: Es gibt keine perfekten Sphären im Universum Es scheint, dass die am häufigsten vorkommende geometrische Form im Universum die Kugel ist. Aber wie viele mathematisch perfekte Kugeln gibt es im Universum? Die Antwort ist keine. Weder die Erde noch die Sonne oder eine Billardkugel sind eine perfekte Kugel. Also, wenn es keine wahren Kugeln gibt, was nützen die Formeln zur Ermittlung der Fläche oder des Volumens einer Kugel? So ist es mit statistischen Modellen im Allgemeinen und im Besonderen mit einer Normalverteilung. Obwohl eines der gängigsten Beispiele die Höhenverteilung ist, würde das Histogrammprofil, wenn wir die Größe jedes Erwachsenen auf dem Planeten zur Verfügung hätten, keiner Gaußschen Glockenkurve entsprechen, auch wenn die Daten nach Geschlecht geschichtet wären. Rasse oder irgendein anderes Merkmal.

2.25 Rückstände sollten keine Informationen enthalten: Ein Müllsack Rückstände bleiben zurück, nachdem alle Informationen aus den Daten entfernt wurden. Da sie keine Informationen enthalten sollten, betrachten wir sie als "Papierkorb". Es muss sichergestellt werden, dass wir keinen Papierkorb mit Wert (Information) wegwerfen, der zur besseren Erklärung des Verhaltens der abhängigen Variablen ausgenutzt werden kann.

Andere Beispiele schließen ein

  • Einfluss der Probengröße auf den Vergleich von Behandlungen: Vergrößerung von Ferngläsern
  • "Die Stichprobengröße im Verhältnis zur Bevölkerungsgröße: Ein Löffel für die Verkostung der Suppe"

Verweise

  • Behar, R., Grima, P. & Marco-Almagro, L. (2012). 25 Analogien zur Erläuterung statistischer Konzepte. Der amerikanische Statistiker (nur angenommen).
Jeromy Anglim
quelle
3

Lustige Frage.

Jemand fand heraus, dass ich in der Biostatistik arbeite, und sie fragten mich (im Grunde genommen): "Ist Statistik nicht nur eine Art zu lügen?"

(Womit das Zitat von Mark Twain über Lies, Damn Lies und Statistics zurückkommt.)

Ich habe versucht zu erklären, dass die Statistik es uns erlaubt, mit hundertprozentiger Genauigkeit zu sagen, dass unter den gegebenen Annahmen und gegebenen Daten die Wahrscheinlichkeit für so und so genau so und so war.

Sie war nicht beeindruckt.

Mike Dunlavey
quelle
1
"Ermöglicht es uns, mit 100% Präzision genau zu sagen, wie groß unsere
Ungenauigkeit
Wenn dies keine völlige Widerlegung ist, schlägt @ Jeromys Antwort vor, warum der Begriff "100% Präzision" verworfen werden sollte.
Rolando2