Mein Team und ich möchten den Nicht-Statistikern des Unternehmens einen Vortrag über die Nützlichkeit der Versuchsplanung halten. Diese Nicht-Statistiker sind auch unsere Kunden und konsultieren uns normalerweise nicht, bevor sie ihre Daten sammeln. Kennen Sie einige reale Beispiele, die das berühmte Zitat von Fisher gut veranschaulichen würden? "Den Statistiker nach dem Experiment hinzuziehen, kann nichts anderes sein, als ihn zu einer Obduktion aufzufordern: Er kann möglicherweise nur sagen, was das Experiment gestorben ist von." ? Am liebsten suchen wir eine Illustration im industriellen / pharmazeutischen / biologischen Kontext. Wir denken an ein Beispiel einer nicht schlüssigen statistischen Analyse, die erfolgreich gewesen wäre, wenn sie vorläufig gut entworfen worden wäre, aber vielleicht gibt es andere mögliche Darstellungen.
quelle
Antworten:
Ich habe Designs kennengelernt, bei denen der Experimentator zwischen den Motiveffekten testen wollte, das Design jedoch besser für die Effekte innerhalb des Motivs geeignet war.
Zum Beispiel bestand ein Experiment aus 8 Ratten, vier auf Diät A und vier auf Diät B, und das Gewicht der Ratte wurde vier Wochen lang jeden Tag gemessen. Dies war in Ordnung, wenn sie an der zeitlichen Wirkung jeder Diät interessiert waren, aber das Ziel bestand darin, Unterschiede in den Diäten zu untersuchen.
Sie dachten, indem sie jede Ratte 28-mal gemessen hatten, hatten sie viele Daten, aber die experimentelle Einheit für den Diät-Effekt war die Ratte, die sie nur 4 für jede Behandlung hatten. Sie hätten die Ratten 10 Mal am Tag messen können, aber es hätte keinen Unterschied gemacht, am Ende brauchten sie mehr Ratten.
quelle
Ich habe für eine Organisation namens National Foundation for Celiac Awareness gearbeitet. Die Organisation fördert das Bewusstsein der Öffentlichkeit für Zöliakie und stellt eine Checkliste der Krankheitssymptome bereit, die eine Unverträglichkeit gegenüber glutenhaltigen Lebensmitteln beinhalten. Sie führten eine Umfrage im Internet durch, indem sie sie nur allen zugänglich machten, die teilnehmen wollten. Im Laufe der Jahre sammelten sie Tausende von Antworten aus der Öffentlichkeit. Sie hofften jedoch, auf der Grundlage der Umfrageergebnisse Schlussfolgerungen über die breite Öffentlichkeit ziehen zu können. Ich musste ihnen sagen, dass die Befragten nicht zufällig, sondern selbst ausgewählt wurden, was zu Verzerrungen führen könnte. Da der Grad der Verzerrung unbekannt ist, konnten wir trotz der großen Datenmenge keine Schlussfolgerungen ziehen.
Jetzt schienen die Befragten eine eigenartige Gruppe zu sein. Viele sind sehr ernst und äußern sich besorgt darüber, dass sie oder ein Verwandter die Krankheit haben könnte. Aber es gab auch eine bestimmte Anzahl von Leuten, die weise antworteten. Dies war an den gefälschten Namen, seltsamen E-Mail-Adressen und Postanschriften zu erkennen, die sie mit ihren Antworten versehen hatten.
Ich war der Meinung, dass die Daten nur in einem explorativen Sinne nützlich sind und die Häufigkeit der Antworten hilfreich sein könnte, um Hypothesen zu formulieren, die in einer gut geplanten zukünftigen Umfrage getestet werden könnten. Aber bis jetzt ist mein Rat nicht beachtet worden und sie führen eine andere dieser einfach zu machenden, selbstauswählenden Umfragen im Internet durch.
quelle
Vor einiger Zeit wurde ich gebeten, die Ergebnisse eines Experiments dahingehend zu analysieren, wie sich die Nachtspeicherposition einer Photovoltaikanlage auf die Geschwindigkeit auswirkt, mit der sich der Boden auf der Anlage ansammelt. (Diese großen, konzentrierenden Photovoltaik-Arrays verfolgen die Sonne den ganzen Tag, werden jedoch nachts in der Regel senkrecht nach oben gelagert, da dies die minimale Belastungsposition für den Tracker ist.) Verschmutzungen sind ein großes Problem, da sie die Energieerzeugung und die Reinigung erheblich verringern ist nicht billig. Das Experiment wurde auf einem Feld von etwa 120 Trackern durchgeführt. Die Westhälfte war vertikal und die Osthälfte horizontal gestaut worden (dies stimmte mit den Trackeranschlüssen zu den beiden Wechselrichtern überein, was einen Vorteil bei der Energieerzeugung während des Experiments bedeuten würde, wenn es einen signifikanten Effekt gibt und sonst kein bestimmtes Verschmutzungsmuster vorliegt es ist nicht,
Unglücklicherweise gibt es ein starkes vorherrschendes Windmuster in der Wüste von Südwesten nach Südwesten und ein großes Gebäude südlich des westlichen Teils des Feldes, das (etwas) den westlichen Teil des Feldes vor windgeblasenen Partikeln "beschattet" . Außerdem "beschatten" sich die Tracker gegenseitig in gewissem Maße vor dem Wind. Folglich variieren die Mechanismen, durch die sich der Boden ansammelt (z. B. durch Wind oder durch Absetzen), in der relativen Größe über das Feld. Dies wiederum impliziert, dass Arrays den Boden je nach Standort unterschiedlich schnell ansammeln. Dies ist kein geringer Effekt.
Das Endergebnis der Analyse war im Wesentlichen, dass es nicht unwahrscheinlich war, dass die Speicherposition einen Unterschied ausmachte, aber wir konnten keineswegs die Möglichkeit ausschließen, dass der Effekt trivial war, noch mit größter Sicherheit bestimmen (basierend auf auf den Daten) das Vorzeichen der Wirkung. Ich entwarf dann ein Folgeexperiment, in dem Speicherpositionen basierend auf dem Array-Standort zugewiesen wurden, mit dem Ziel, die "Reaktionsfläche" der Verschmutzung über das Feld für beide Speicherpositionen abzuschätzen, die Verschmutzungsraten "Absetzen" im Vergleich zu "Windgeblasen" abzuschätzen und natürlich die Auswirkung des Lagerungswinkels auf beide. Dieses Experiment war recht erfolgreich und wir konnten uns bereits nach wenigen Monaten ein klares Bild über die Vorteile des vertikalen Verstauens machen.
quelle
Ich wurde von einem Kollegen gebeten, die Statistiken für eine Studie zu erstellen, in der die Korrelation zwischen einer bestimmten Art von Wetterereignissen und Ausfällen in einer Art von Infrastruktur untersucht wurde, die normalerweise auf einfachen Verschleiß zurückzuführen sind. Der Kollege wollte wissen, ob die Wetterereignisse tatsächlich zum Scheitern beigetragen haben oder nicht. Ein Team von Leuten hatte bereits viel Zeit und Mühe aufgewendet, um eine große Menge an Daten zu sammeln, und das Forschungspapier war so gut wie fertig. Sie brauchten nur jemanden, der die Statistiken erstellt und den letzten Teil des Ergebnisbereichs ausfüllt.
Das Problem war, dass sie sorgfältig darauf geachtet hatten, dass der Datensatz nur "interessante" Zeiträume enthielt, in denen das fragliche Wetterereignis aufgetreten war. Das bedeutete, dass es keine Möglichkeit gab, die Ausfallrate bei Ereignissen mit Nichtereigniszeiten zu vergleichen. Ich habe wiederholt versucht, das Problem zu erklären, aber sie waren nie wirklich überzeugt, weil sie einfach so viele Daten hatten, dass ich mit Sicherheit etwas daraus machen konnte.
Glücklicherweise gab es immer noch eine Reihe von Schweregraden der Wetterereignisse und es gab eine schwache Korrespondenz zwischen Schweregrad und Ausfallrate, so dass wir zumindest etwas daraus retten konnten, aber das Ergebnis hätte so viel eindeutiger ausfallen können, wenn sie darüber nachgedacht hätten, wie sie vorgehen sollten Machen Sie die Statistiken, bevor Sie mit der Datenerfassung beginnen.
quelle