Fallstricke bei der Versuchsplanung: Vermeidung toter Versuche

27

Ich habe dieses Zitat schon oft gesehen:

Nach Beendigung eines Experiments den Statistiker zu konsultieren, bedeutet oft nur, ihn zu bitten, eine Obduktion durchzuführen. Er kann vielleicht sagen, woran das Experiment gestorben ist. - Ronald Fisher (1938)

Für mich scheint es vielleicht etwas anmaßend. Die einzigen Beispiele, die ich jemals gefunden habe, um zu beschreiben, wie Experimente ohne gutes Design verlaufen, sind fehlende oder schlechte Kontrollen. Zum Beispiel Experimente, die die Ausbringung eines Düngemittels kontrollieren, aber die für die Ausbringung erforderliche Umgebung nicht kontrollieren. Vielleicht bin es nur ich, aber es scheint, als würde ein kurzer Blick in den Wikipedia-Abschnitt über Fischers Gestaltungsprinzipien die meisten Grundlagen abdecken.

Wie oft sehen Sie als Statistiker das Entwerfen von experimentellen Problemen mit Daten? Haben sie immer etwas mit den wenigen von Fisher erwähnten Faktoren zu tun, oder gibt es andere schwerwiegende Fallstricke, auf die wir nicht statistisch ausgebildeten Wissenschaftler achten sollten?

naught101
quelle
4
Wie oft: sehr oft. Das Experiment "tot" zu nennen, geht normalerweise zu weit, aber ich sehe, dass viele Experimente mit nur geringfügigen Änderungen im Design viel besser gewesen sein könnten.
mark999
3
Ich habe ein paar gesehen. Während es anmaßend sein könnte jetzt , denken Sie daran , dass , wenn Fisher gesagt, könnte man nicht nur wikipedia nachschlagen. Die Rate kann in den frühen Tagen viel höher gewesen sein.
Glen_b -Reinstate Monica
4
Schön, dass Sie diesen Punkt ansprechen. Ich bin auch neugierig, was vielleicht das erste Mal ist, dass ich ein Vierfach-Qualifikationsspiel gesehen habe: "Für mich scheint es vielleicht etwas anmaßend." :-)
Rolando2
1
@ rolando2: Heh, nun, es ist Fisher. Er hat sich all diese Qualifikationen verdient : D
naught101
5
Ich habe buchstäblich viele tausend Datensätze in meiner Karriere gesehen (und praktisch keiner von ihnen wurde nach einem Entwurf gesammelt, der von einem Statistiker überprüft wurde). Die meisten davon wurden zu formellen Zwecken erhoben, z. B. um behördliche Anforderungen zu erfüllen. Ich kann mich nicht an einen erinnern , der keine designbezogenen Probleme hatte (obwohl diese manchmal geringfügig waren). Das soll nicht heißen, dass die Datensätze nutzlos oder "tot" waren: In fast allen Fällen bestand meine Aufgabe darin, (die medizinische Analogie fortzusetzen), den Datensatz zunächst wiederzubeleben und ihn dann, wenn überhaupt möglich, für den vorgesehenen Zweck zu verwenden.
Whuber

Antworten:

14

Ich glaube, was Fisher in seinem berühmten Zitat gemeint hat, geht über die Aussage hinaus, "Wir werden für unsere Studie ein vollständiges faktorielles Design erstellen" oder einen anderen Designansatz. Wenn Sie sich bei der Planung des Experiments an einen Statistiker wenden, denken Sie auf intelligente Weise über jeden Aspekt des Problems nach, einschließlich des Forschungsziels, welche Variablen relevant sind, wie sie erfasst werden, Datenmanagement, Fallstricke, Zwischenbewertung des Versuchsverlaufs und vieles mehr Mehr. Oft finde ich es wichtig, jeden Aspekt des vorgeschlagenen Experiments in die Hand zu nehmen, um wirklich zu verstehen, wo die Schwierigkeiten liegen.

Meine Erfahrungen stammen hauptsächlich aus medizinischen Anwendungen. Einige der Probleme, auf die ich gestoßen bin und die durch vorherige Rücksprache mit einem Statistiker hätten vermieden werden können:

  • Unzureichende Stichprobengröße ist natürlich die Nummer eins auf dieser Liste. Häufig standen Daten aus früheren Studien zur Verfügung, und es wäre leicht gewesen, eine vernünftige Schätzung der erforderlichen Stichprobengröße zu geben. In diesen Fällen besteht die einzige Möglichkeit häufig darin, eine rein deskriptive Analyse der Daten durchzuführen und weitere Untersuchungen in der Zeitung zu versprechen (das Nichtveröffentlichen ist normalerweise keine Option, nachdem Ärzte wertvolle Zeit investiert haben).
  • Die Durchführung der Experimente wird der Bequemlichkeit und dem Zufall überlassen, anstatt dem Design. An einem Beispiel, an dem ich gerade arbeite, wurden Messungen im Laufe der Zeit gesammelt. Die Messzeiten, die Messhäufigkeit und das Ende des Überwachungszeitraums variieren stark zwischen den einzelnen Personen. Die Anzahl der Messungen pro Person zu erhöhen und die Messdaten und das Ende des Überwachungszeitraums festzulegen, wäre (in diesem Fall) ein relativ geringer Mehraufwand gewesen und hätte der Studie sehr geholfen.
  • Schlechte Kontrolle über Störfaktoren, die leicht hätten kontrolliert werden können. ZB wurden Messungen manchmal am Tag der Probenentnahme und manchmal später durchgeführt, so dass die Möglichkeit bestand, dass sich die Probe verschlechtert hat.
  • Schlechte Datenverwaltung, einschließlich meines persönlichen Favoriten "Ich habe die Daten gerundet, bevor ich sie in den Computer gesteckt habe, weil die Maschine ungenau gemessen hat". Oft werden relevante Daten einfach nicht erfasst und können nicht nachträglich abgerufen werden.

Oft reichen die Probleme mit einer Studie sogar noch weiter zurück bis zur anfänglichen Konzeption der Forschung:

  • Daten werden manchmal ohne ein klares Ziel und nur unter der Annahme gesammelt, dass sie irgendwie nützlich sind. Die Erstellung von Hypothesen und "signifikanten Ergebnissen" bleibt dem Statistiker überlassen.
  • Und im Gegenteil: Daten werden zusammengekratzt, um einen bestimmten Punkt zu beweisen, den der PI im Kopf hat, unabhängig von den Daten und dem, was tatsächlich damit bewiesen werden kann. Dieses Mal soll der Statistiker nur vorab geschriebenen Schlussfolgerungen seinen Stempel aufdrücken, ohne dass die Schlussfolgerungen angesichts der Daten angepasst werden.

Bisher klingt dies hauptsächlich danach, dass der Statistiker leidet und möglicherweise die wissenschaftliche Integrität leidet, wenn der PI versucht, Schlussfolgerungen zu ziehen, die nicht von den Daten unterstützt werden (immer eine unterhaltsame Diskussion). Aber auch das Versuchsteam leidet, weil es in der Versuchsphase unnötige Mehrarbeit leistet (ohne notwendige Arbeit zu leisten) und später viel mehr Zeit mit dem Statistiker verbringen muss, weil es zuvor keinen Rat erhalten hat. Und natürlich wird das endgültige Papier schlechter sein, weniger Schlussfolgerungen (und mehr "Vermutungen") haben und es wahrscheinlich nicht in das von der PI gewünschte hochwirksame Journal schaffen.

Rob Hall
quelle
In Bezug auf den zweiten Ihrer zweiten Aufzählungspunkte denke ich, dass die normale Begründung einer Studie darin besteht, Daten mit dem Ziel zu sammeln, bestimmte Punkte zu beweisen.
Robert Jones
1
Sie haben natürlich vollkommen recht. Ich war dort etwas zu kurz. Was ich erwähnen wollte, war ein Szenario, in dem ein PI, der sehr entschlossen ist, einen Punkt zu beweisen, und Daten mit schlechter Qualität, die diesen Punkt nicht beweisen können (häufig aufgrund grundlegender Entwurfsprobleme), zusammenkommen.
Rob Hall
12

Zwei Wörter: Stichprobengröße ... Eine Leistungsanalyse ist ein Muss. Wenn Sie von Anfang an einen kompetenten Statistiker in Ihr Team aufnehmen, werden Sie sich wahrscheinlich viel Ärger ersparen, wenn Sie die Ergebnisse und Diskussionsabschnitte Ihres Manuskripts oder Berichts verfassen.

Es ist allzu üblich, dass ein Principal Investigator Daten sammelt, bevor er sich mit einem Statistiker in Verbindung setzt, mit der Erwartung eines "Vorhersagemodells" oder eines "Kausalzusammenhangs" aus einer Stichprobe von weniger als 30 Probanden. Hätte sich der PI vor der Datenerfassung mit einem Statistiker beraten, hätte der Statistiker den PI nach entsprechenden Analysen informieren können, um weitere Daten / Probanden zu erfassen oder die Ziele seines Analyseplans / -projekts neu zu strukturieren.

Matt Reichenbach
quelle
1
Ich bin nicht einverstanden mit "Eine Leistungsanalyse ist ein Muss". Ich denke, viele Leute übertreiben die Bedeutung der Leistungsanalyse.
mark999
3
@ mark999: Könnte sein, aber es negiert nicht die Wichtigkeit, eine Art Power-Analyse vor dem Experiment durchzuführen. Ich verstehe, das ist Matts Punkt.
Scortchi
3
@ mark999: Sie können sich natürlich als nützlich erweisen. Aber unter welchen Umständen würden Sie keine Leistungsanalyse empfehlen (ich schätze auch die erwartete Breite der Konfidenzintervalle), bevor Sie ein Experiment durchführen? Ich denke nur an (1) eine Pilotstudie, bei der Sie nur das Protokoll durchgehen und den Fehler grob abschätzen möchten, und (2) ein Experiment, für das Sie aus irgendeinem Grund keine Stichprobengröße auswählen können Leistungsanalyse redundant.
Scortchi
2
@ mark999: Ich denke wir tun es. Für Ihren Fall (B) würde ich eine Pilotstudie -> Leistungsanalyse -> ein Experiment vorschlagen , um Hypothesen zu testen oder Effektgrößen als unanfechtbaren Plan einzuschätzen.
Scortchi - Wiedereinsetzung von Monica
3
Selbst wenn Sie eine feste Stichprobengröße haben, sehe ich keinen Grund, Ihren Kopf in den Sand zu stecken und eine Leistungsanalyse zu vermeiden (abgesehen von angemessenen Reaktionen auf Ressourcenbeschränkungen und Ignoranz).
Andy W
11

Ich nehme an, es hängt davon ab, wie streng Sie das Wort "Design" interpretieren. Es wird manchmal so verstanden, als ob es sich um vollständig randomisierte oder randomisierte Blöcke handelt. Ich glaube nicht, dass ich eine Studie gesehen habe, die daran gestorben ist. Wie andere bereits erwähnt haben, vermute ich, dass "gestorben" zu stark ist, aber es hängt davon ab, wie Sie den Begriff interpretieren. Sicherlich habe ich Studien gesehen, die "nicht signifikant" waren (und die Forscher später nicht versuchten, als Ergebnis zu veröffentlichen). unter der Annahme, dass diese Studien "signifikant" gewesen sein könnten, wenn sie anders durchgeführt worden wären (nach offensichtlichen Ratschlägen, die ich gegeben hätte) und daher veröffentlicht worden wären, könnten sie als "gestorben" eingestuft werden. In Anbetracht dieser Auffassung ist das von @RobHall und @MattReichenbach aufgeworfene Stromproblem ziemlich einfach. Aber es gibt mehr als nur eine Stichprobengröße, und diese könnten unter eine lockerere Konzeption von "Design" fallen. Hier einige Beispiele:

  • Ohne Informationen zu sammeln, aufzuzeichnen oder wegzuwerfen,
    arbeitete ich an einer Studie, bei der die Forscher daran interessiert waren, ob ein bestimmtes Merkmal mit einem Krebs zusammenhängt. Sie erhielten Mäuse aus zwei Linien (dh genetische Linien, die Mäuse wurden für bestimmte Eigenschaften gezüchtet), wobei erwartet wurde, dass eine Linie mehr von dem Merkmal als die andere hatte. Das fragliche Merkmal wurde jedoch nicht tatsächlich gemessen, obwohl es hätte sein können. Diese Situation ist analog zum Dichotomisieren oder Binning einer stetigen Variablen, wodurch die Leistung reduziert wird. Selbst wenn die Ergebnisse "signifikant" wären, wären sie weniger aussagekräftig als wenn wir die Größe des Merkmals für jede Maus kennen würden.

    Ein anderer Fall in derselben Rubrik ist, nicht über offensichtliche Kovariaten nachzudenken und sie zu sammeln.

  • Schlechtes Fragebogendesign
    Ich habe kürzlich an einer Studie gearbeitet, in der eine Umfrage zur Patientenzufriedenheit unter zwei Bedingungen durchgeführt wurde. Keiner der Gegenstände wurde jedoch rückgängig gemacht. Es stellte sich heraus, dass die meisten Patienten nur die Liste durchgingen und alle 5s ankreuzten ( stark einverstanden ), möglicherweise ohne die Artikel überhaupt zu lesen. Es gab einige andere Probleme, aber das ist ziemlich offensichtlich. Merkwürdig ist , sagte der Mann verantwortlich das Studium der Durchführung von mir ihr ausdrücklich ermutigt hatte anwesenden nicht zu Tierarzt die Studie mit einem Statistiker zunächst, obwohl wir für eine solche Beratung kostenlos und bequem zur Verfügung stehen.

gung - Setzen Sie Monica wieder ein
quelle
Whoa ... mit dem ersten, was haben sie gemessen? das scheint ein bisschen, ähm, offensichtlich. Oder bekamen sie vorher die Zusicherung, dass die Merkmale in den verschiedenen Linien unterschiedlich waren? Das zweite Beispiel ist cool, eine Art Randomisierung, über die die meisten Leute nicht nachdenken würden.
Naught101
5
Es wurde nur ein Stamm gegen den anderen getestet. Das fragliche Merkmal ist in der Regel für eine der Linien höher, aber es gibt einige Überlappungen - die Verteilungen sind nicht vollständig voneinander getrennt.
gung - Wiedereinsetzung von Monica
Ich hatte eine ähnliche Erfahrung wie Punkt 1: Ein mikrofluidisches Gerät wurde eingerichtet, um einen bestimmten Zelltyp zu erkennen. Eine Mischung von zu erkennenden Zellen und Kontrollzellen wurde injiziert und ein für die Erkennung zu verwendender Videostrom + Signalstrom wurden aufgenommen. Obwohl der Videostream als Referenz dafür verwendet werden konnte, ob sich zu einem bestimmten Zeitpunkt eine Zelle am Detektor befand, konnte leider nicht festgestellt werden, um welchen Typ es sich bei der Zelle handelte, sodass nicht festgestellt werden konnte, ob ein Signal wirklich positiv war oder nicht falsch negativ oder kein signal war richtig negativ oder falsch positiv ...
cbeleites unterstützt Monica
8

Ich habe diese Art von Problem in umfrageähnlichen und psychologischen Experimenten gesehen.

In einem Fall musste das gesamte Experiment zu einer Lernerfahrung aufgewertet werden. Es gab Probleme auf mehreren Ebenen, die zu einem Durcheinander von Ergebnissen führten, aber Ergebnisse, die die Hypothese zu stützen schienen. Am Ende war ich in der Lage, ein rigoroseres Experiment zu planen, das im Wesentlichen die Kraft hatte, die Hypothese abzulehnen.

In dem anderen Fall wurde mir eine Umfrage ausgehändigt, die bereits entworfen und durchgeführt worden war, und es gab mehrere Probleme, die dazu führten, dass mehrere Bereiche von Interesse betroffen waren. In einem Schlüsselbereich wurde beispielsweise gefragt, wie oft die Kunden von einer Veranstaltung abgewiesen wurden, weil sie bei ihrer Ankunft voll war. Das Problem ist, dass es in der Frage keine Zeitspanne gibt, sodass Sie nicht den Unterschied zwischen jemandem, der versucht hat, 4 Mal teilzunehmen und 4 Mal abgewiesen wurde, und jemandem, der versucht hat, 40 Mal teilzunehmen und nur 4 Mal abgewiesen wurde .

Ich bin kein ausgebildeter Statistiker, aber wenn sie vorher zu mir gekommen wären, hätte ich ihnen helfen können, diese Probleme zu beheben und bessere Ergebnisse zu erzielen. Im ersten Fall wäre es immer noch enttäuschend gewesen: "Entschuldigung, Ihre Hypothese erscheint äußerst unwahrscheinlich", aber es hätte ihnen ein zweites Experiment ersparen können. Im zweiten Fall hätte es ihnen Antworten auf einige wichtige Fragen gegeben und die Ergebnisse schärfer gemacht. (Ein weiteres Problem ist, dass sie im Laufe der Zeit mehrere Standorte befragten und zumindest einige Personen auf diese Weise mehrmals befragt wurden, ohne die Frage "Haben Sie diese Umfrage woanders durchgeführt?")

Möglicherweise keine statistischen Probleme an sich, aber in beiden Fällen haben geschickte, gut ausgebildete Domain-Experten fehlerhafte Instrumente erstellt, und die Ergebnisse waren ein totes Experiment und ein Experiment mit amputierten Gliedmaßen.

Wayne
quelle