Ich vermute, dass die meisten Benutzer von Statistik-Tools Nebennutzer sind (Leute, die wenig bis gar keine formelle Ausbildung in Statistik hatten). Für Forscher und andere Fachleute ist es sehr verlockend, statistische Methoden auf ihre Daten anzuwenden, nur weil sie es in von Experten begutachteten Artikeln, in grauer Literatur, im Internet oder auf einer Konferenz schon einmal gesehen haben. Wenn Sie jedoch die erforderlichen Annahmen und die Einschränkungen des statistischen Tools nicht genau kennen, kann dies zu fehlerhaften Ergebnissen führen - Fehler, die häufig nicht bestätigt werden!
Ich stelle fest, dass Studenten (insbesondere in den Sozial- und Naturwissenschaften) die statistischen Fallstricke entweder nicht kennen oder diese Fallstricke für belanglos halten (letzteres ist am häufigsten der Fall). Obwohl Beispiele für die missbräuchliche Verwendung statistischer Tools in vielen Einführungsbüchern, im Web oder in StackExchange zu finden sind, fällt es mir schwer, Beispiele aus der Praxis zu finden, die sich nachteilig auswirken (z. B. Kosten in US-Dollar, betroffene Leben und Karriereverluste). . Zu diesem Zweck suche ich nach Beispielen aus der Praxis, die den Missbrauch statistischer Methoden aufzeigen, für die:
- Die verwendeten statistischen Methoden werden in der Regel in Kursen zu Einführungsstatistiken behandelt (z. B. Inferenzstatistiken, Regressionen usw.).
- Das Endergebnis hatte kostspielige Konsequenzen (verlorene Dollars, betroffene Leben, zerschmetterte Karrieren usw.).
- Die Daten können problemlos als Arbeitsbeispiele in einem Kurs verwendet werden (der Zweck besteht darin, die Schüler an realen Beispielen arbeiten zu lassen, die Konsequenzen für die reale Welt hatten.)
Ein nicht-statistisches Beispiel, das ich den Studenten gerne erläutere, wenn es darum geht , die Einheiten in einem Forschungsprojekt richtig zu definieren, ist das „metrische Missgeschick“ , das zum Verlust eines 125-Millionen-Dollar-Satelliten geführt hat! Dies führt normalerweise zu einem: -o-Faktor bei den Studenten und scheint einen bleibenden Eindruck zu hinterlassen (zumindest während ihres kurzen akademischen Lebens).
quelle
Antworten:
Ich bin nicht sicher, ob Daten verfügbar sind, aber ein gutes Beispiel für schlechte Statistiken ist die Harvard Nurses 'Study zur Wirksamkeit der Hormonersatztherapie (HRT) bei Frauen in den Wechseljahren.
Was ist die allgemeine Idee? Die Nurses 'Study legte nahe, dass HRT für Frauen nach der Menopause von Vorteil ist. Es stellte sich heraus, dass dieses Ergebnis entstanden ist, weil die Kontrollgruppe sehr unterschiedlich von der Behandlungsgruppe war und diese Unterschiede in der Analyse nicht berücksichtigt wurden. In nachfolgenden randomisierten Studien wurde die HRT mit Krebs, Herzinfarkt, Schlaganfall und Blutgerinnseln in Verbindung gebracht. Mit entsprechenden Korrekturen zeigt die Nurses-Studie auch diese Muster.
Ich kann keine Schätzungen für US-Todesfälle im Zusammenhang mit HRT finden, aber die Größenordnung lag bei Zehntausenden. Ein Artikel verknüpft 1000 Todesfälle in Großbritannien mit HRT.
Dieser Artikel des New York Times Magazine bietet einen guten statistischen Hintergrund zu den in der Studie auftretenden Problemen der Verwechslung.
In dieser Ausgabe des American Journal of Epidemiology gibt es eine akademische Diskussion . Die Artikel vergleichen die Ergebnisse der Observational Nurses-Studie mit denen der Women's Health Initiative, basierend auf randomisierten Studien.
Es gibt auch Diskussionen (von vielen derselben Personen) in einer Ausgabe von Biometrics. Siehe insbesondere den Kommentar von Freedman und Petitti [ prepub version ].
quelle
Ein wunderbares historisches Beispiel liefert die Veröffentlichung von Horace Secrists Triumph of Mediocrity in Business aus dem Jahr 1933 . Zu dieser Zeit war Secrist ein etablierter Statistiker, Autor eines Lehrbuchs (ich erinnere mich an das Jahr 1919), Mitglied der American Statistical Association und Leiter einer statistischen Forschungsgruppe an der Northwestern University. Er und seine Mitarbeiter hatten im vergangenen Jahrzehnt Zeitreihen von Geschäftsdaten zusammengestellt, die im Buch reproduziert und sorgfältig analysiert wurden. Es sollte ein Meisterstück eines ambitionierten Statistikers sein.
Harold Hotellings Rezension des Buches, das später in diesem Jahr in JASA erschien, wies darauf hin, dass Secrist lediglich Hunderte von Beispielen für eine Regression des Mittelwerts dokumentiert hatte (ein grundlegendes Thema in einem einführenden Statistikkurs von heute, Punkt 1 der Frage). Secrist protestierte in einer veröffentlichten Antwort. Hotellings Antwort darauf ist ein Klassiker:
[JASA v. 29 # 186, Juni 1934, p. 199.]
Secrist scheint kurz danach schnell aus der statistischen Szene verschwunden zu sein ("Karriere ruiniert", Punkt 2 in der Frage). Sein Buch ist noch verfügbar. (Vor ein paar Jahren habe ich über die Fernleihe eine schöne, saubere und offensichtlich wenig gelesene Kopie erhalten.) Daraus können Sie eine beliebige Anzahl von Beispieldatensätzen extrahieren (Punkt 3 der Frage).
Steven Stigler erzählt diese Geschichte in einem Buch und einer Zeitung, Die Geschichte der Statistik im Jahr 1933 .
quelle
Mir scheint, dass Wireds Einschätzung des Börsencrashs von 2008 ein informatives Beispiel sein könnte. Ich kann nicht beurteilen, ob die Schlussfolgerungen richtig sind oder nicht, aber die Idee, Korrelationen für Daten zu verwenden, die keine repräsentative Stichprobe sind, scheint den Umständen angemessen zu sein, die Sie vorschlagen. Es ist auch aktuell und könnte sie deshalb interessieren.
quelle
Ich dachte, Sie könnten diesen Ted Talk interessant und relevant finden:
quelle