Sequenzielle Hypothesentests in der Grundlagenforschung

16

Ich bin Pharmakologe, und meiner Erfahrung nach verwenden fast alle Arbeiten in der biomedizinischen Grundlagenforschung den Student-T-Test (entweder, um Rückschlüsse zu ziehen oder um den Erwartungen zu entsprechen ...). Vor ein paar Jahren wurde ich darauf aufmerksam, dass der Student-T-Test nicht der effizienteste Test ist, der verwendet werden kann: Sequentielle Tests bieten für jede Probengröße viel mehr Leistung, oder eine weitaus geringere Probengröße im Durchschnitt für die entsprechende Leistung.

Sequenzielle Verfahren unterschiedlicher Komplexität werden in der klinischen Forschung verwendet, aber ich habe noch nie ein Verfahren in einer biomedizinischen Grundlagenforschung gesehen. Ich stelle fest, dass sie auch in den einführenden Statistikbüchern fehlen, die alles sind, was die meisten Grundlagenforscher wahrscheinlich sehen werden.

Meine Frage ist dreifach:

  1. Warum werden sequentielle Tests angesichts des erheblichen Effizienzvorteils nicht häufiger eingesetzt?
  2. Gibt es einen Nachteil bei der Verwendung von sequentiellen Methoden, der bedeuten würde, dass von deren Verwendung durch Nicht-Statistiker abzuraten ist?
  3. Werden Statistikstudenten in sequentiellen Testverfahren unterrichtet?
Michael Lew
quelle
3
Sprechen Sie sicherheitshalber von ST, wie sie in klinischen Studien gefunden wurden, z. B. en.wikipedia.org/wiki/Sequential_analysis ?
Chl
Ja. Es gibt einige Varianten von sequentiellen Tests, einschließlich sequentieller T-Tests, aber keine wird in der Grundlagenforschung verwendet. Ich sehe keine Behinderung für ihre Verwendung.
Michael Lew
(+1) Bin gerade über sequentielle Tests gestolpert und habe mir die gleichen Fragen gestellt.
steffen

Antworten:

5

Ich weiß nicht viel über sequentielle Tests und deren Anwendung außerhalb der Zwischenanalyse (Jennison und Turnbull, 2000) und computergestützter adaptiver Tests (van der Linden und Glas, 2010). Eine Ausnahme bilden einige fMRT-Studien, die mit hohen Kosten und Schwierigkeiten bei der Einschreibung von Probanden verbunden sind. Grundsätzlich zielt das sequentielle Testen in diesem Fall in erster Linie darauf ab, das Experiment früher zu stoppen. Daher wundert es mich nicht, dass diese sehr maßgeschneiderten Ansätze nicht in üblichen statistischen Klassen unterrichtet werden.

Sequentielle Tests sind jedoch nicht ohne Nachteile (Fehler vom Typ I und II müssen im Voraus angegeben werden, die Wahl der Stoppregel und die mehrfache Betrachtung der Ergebnisse sollten gerechtfertigt sein, p-Werte sind unter der Null nicht gleichmäßig verteilt wie in einem festen Wert Musterdesign usw.). Bei den meisten Konstruktionen arbeiten wir mit einer vorgegebenen Versuchsanordnung, oder es wurde eine vorläufige Leistungsstudie durchgeführt, um eine Art von Kosten-Nutzen-Kriterium zu optimieren. In diesem Fall gelten Standardprüfverfahren.

Das folgende Paper von Maik Dierkes zum Thema Fixed vs. Open Sample Design fand ich jedoch sehr interessant: Ein Claim für sequentielle Versuchspläne .

chl
quelle
Biomedizinische Grundlagenforscher führen die ganze Zeit Zwischenanalysen durch, sie erklären sie nur nicht, weil sie nicht einmal wissen, dass es darauf ankommt! Ich habe Forscher auf einem nationalen Kongress befragt und festgestellt, dass mehr als 50% nicht wussten, dass die Kontrolle der Fehlerraten beim Student-T-Test von einer festgelegten Stichprobengröße abhängt. Sie können dies an den manchmal unregelmäßig variierenden Stichprobengrößen erkennen.
Michael Lew
Einige der Nachteile, die sich aus der Komplexität sequentieller Entwürfe ergeben, liegen eher im Entwurf der Analysen als in ihrer Implementierung. Vielleicht könnten wir eine Reihe von vorgefertigten Designs für grundlegende Experimente mit kleinen Stichproben haben.
Michael Lew
@Michael Über "gefälschte" Zwischenanalysen (Betrachtung der p-Werte, während sich die Studie noch in einem Entwicklungsstadium befindet): Es sieht so aus, als wäre es eine missbräuchliche Verwendung von Statistiken, nicht mehr.
chl
@Chi Auf einer Ebene sind nicht deklarierte und nicht korrigierte Zwischenanalysen zwar unangemessen (aber in Unwissenheit, von der ich glaube, dass sie auf Unzulänglichkeiten bei der Vermittlung von Statistiken an biomedizinische Grundlagenforscher hinweist ...). Wenn wir es jedoch auf einer Metaebene betrachten, ist es möglich, einige Teilbegründungen zu finden. Viele Experimente beinhalten so kleine Stichproben, dass eine erhöhte Rate falsch positiver Fehler ein angemessener Kompromiss für mehr Leistung sein kann. Die Konvention schließt einen deklarierten Alpha-Wert über 0,05 aus.
Michael Lew
Ich stelle in diesem Zusammenhang fest, dass Grundlagenforscher von Biomedica nicht ausschließlich nach Neyman-Pearson arbeiten, auch wenn Aussagen, dass "Ergebnisse mit P <0,05 als signifikant angesehen wurden", etwas anderes nahe legen könnten. Wenn wir uns im Rahmen des Fisher-Signifikanztests bewegen, bei dem andere Überlegungen als der erreichte P-Wert in Entscheidungen über den Umgang mit den Testergebnissen einfließen können, sind Zwischenanalysen möglicherweise nicht so schlecht. Es ist jedoch sicher, dass ein entworfener sequentieller Test einem nicht entworfenen überlegen wäre.
Michael Lew