Eine Zwischenanalyse ist eine Analyse der Daten zu einem oder mehreren Zeitpunkten vor dem offiziellen Abschluss der Studie mit der Absicht, z. B. die Studie möglicherweise vorzeitig zu beenden.
Laut Piantadosi, S. ( Klinische Studien - eine methodologische Perspektive ): " Die Schätzung eines Behandlungseffekts wird verzerrt, wenn eine Studie in einem frühen Stadium beendet wird. Je früher die Entscheidung, desto größer die Verzerrung. "
Können Sie mir diese Behauptung erklären? Ich kann leicht verstehen, dass die Genauigkeit beeinträchtigt wird, aber die Behauptung über die Abweichung ist für mich nicht offensichtlich ...
clinical-trials
bias
Ocram
quelle
quelle
Antworten:
Zuallererst müssen Sie den Kontext beachten: Dies gilt nur, wenn die Studie aufgrund einer Zwischenüberwachung, die Wirksamkeit / Sinnlosigkeit zeigt, vorzeitig abgebrochen wurde, und nicht aus zufälligen Gründen. In diesem Fall wird die Schätzung der Effektgröße in einem vollständig statistischen Sinne verzerrt. Wenn Sie aus Gründen der Wirksamkeit angehalten haben, ist der geschätzte Effekt zu hoch (vorausgesetzt, er ist positiv). Wenn Sie aus Gründen der Sinnlosigkeit angehalten haben, ist er zu niedrig.
Piantodosi gibt auch eine intuitive Erklärung (Abschnitt 10.5.4 in meiner Ausgabe). Angenommen, der wahre Unterschied in zwei Mitteln ist 1 Einheit. Wenn Sie viele Versuche durchführen und diese zum Zeitpunkt der Zwischenanalyse betrachten, haben einige von ihnen Effektgrößen von weit über 1, einige von weit unter 1 und die meisten von etwa 1 festgestellt - die Verteilung ist breit, aber symmetrisch. Die geschätzte Effektgröße zu diesem Zeitpunkt wäre nicht sehr genau, aber unvoreingenommen. Sie stoppen jedoch nur und melden eine Effektgröße, wenn der Unterschied signifikant ist (angepasst für mehrere Tests), dh die Schätzung liegt auf der hohen Seite. In allen anderen Fällen machen Sie weiter und melden keine Schätzung. Das bedeutet , dass die Bedingung früh gestoppt hatist die Verteilung der Effektgröße nicht symmetrisch und ihr erwarteter Wert liegt über dem wahren Wert der Schätzung.
Die Tatsache, dass dieser Effekt von Anfang an schwerwiegender ist, beruht auf der größeren Hürde für den Abbruch des Versuchs, sodass ein größerer Teil der Verteilung während der Konditionierung weggeworfen wird.
quelle
Hier ist ein Beispiel dafür, wie Voreingenommenheit in Schlussfolgerungen entstehen kann und warum dies möglicherweise nicht die ganze Geschichte ist. Angenommen, Sie haben eine sequentielle Prüfung eines Arzneimittels, bei der ein positiver (+1) Effekt erwartet wird, der sich jedoch negativ auswirken kann (-1). Fünf Meerschweinchen werden nacheinander getestet. Die unbekannte Wahrscheinlichkeit für einen positiven Ausgang in einem Einzelfall ist tatsächlich und ein negativer Ausgang .34 14
Nach fünf Versuchen sind die Wahrscheinlichkeiten der verschiedenen Ergebnisse also
Die Wahrscheinlichkeit für ein positives Ergebnis insgesamt ist 918/1024 = 0,896, und das mittlere Ergebnis ist +2,5. Division durch die 5 Versuche, dies ist ein Durchschnitt von +0,5 Ergebnissen pro Versuch.
Dies ist die vorurteilsfreie Zahl, da sie auch beträgt .+ 1 × 34- 1 × 14
Angenommen, zum Schutz von Meerschweinchen wird die Studie abgebrochen, wenn das kumulative Ergebnis zu irgendeinem Zeitpunkt negativ ist. Dann werden die Wahrscheinlichkeiten
Die Wahrscheinlichkeit für ein positives Ergebnis ist also insgesamt 702/1024 = 0,6855, und das mittlere Ergebnis ist +1,953. Wenn wir den Mittelwert des Ergebnisses pro Versuch in der vorherigen Berechnung betrachtet haben, dh mit , , , , und dann würden wir +0,184 erhalten.+ 55 + 35 + 15 - 15 - 13 - 11
Dies sind die Sinne, in denen eine Vorspannung vorliegt, indem im zweiten Schema frühzeitig angehalten wird und die Vorspannung in der vorhergesagten Richtung liegt. Aber es ist nicht die ganze Geschichte.
Warum denken Whuber und Probabilityislogic, dass ein vorzeitiges Stoppen zu unvoreingenommenen Ergebnissen führen sollte? Wir wissen, dass das erwartete Ergebnis der Versuche im zweiten Schema +1.953 beträgt. Die erwartete Anzahl der Versuche beträgt 3,906. Wenn wir also eins durch das andere teilen, erhalten wir genau wie zuvor +0,5 und das, was als unvoreingenommen beschrieben wurde.
quelle
Nun, mein Wissen dazu stammt aus der Rede von Harveian im Jahr 2008 http://bookshop.rcplondon.ac.uk/details.aspx?e=262. Nach meinem besten Wissen werden die Ergebnisse im Wesentlichen voreingenommen sein, da 1) sie vorzeitig beendet werden In der Regel bedeutet dies, dass entweder die Behandlung mehr oder weniger wirksam war als erhofft, und wenn dies positiv ist, können Sie den Zufall nutzen. Ich glaube, dass p-Werte auf der Grundlage des geplanten Stichprobenumfangs berechnet werden (aber ich könnte in diesem Punkt falsch liegen), und auch wenn Sie Ihre Ergebnisse ständig überprüfen, um festzustellen, ob irgendwelche Effekte gezeigt wurden, müssen Sie mehrere Vergleiche korrigieren um sicherzustellen, dass Sie nicht nur einen zufälligen Effekt finden. Wenn Sie beispielsweise 20 Mal nach p-Werten unter 0,05 suchen, ist statistisch gesehen fast sicher, dass Sie ein signifikantes Ergebnis finden.
quelle
Ich würde dieser Behauptung nicht zustimmen, es sei denn, mit "Bias" meint Piantadosi den Teil der Genauigkeit, der allgemein als Bias bezeichnet wird. Die Schlussfolgerung wird nicht "voreingenommen" sein, weil Sie sich entschieden haben, per se zu stoppen: Sie wird "voreingenommen" sein, weil Sie weniger Daten haben. Das sogenannte "Wahrscheinlichkeitsprinzip" besagt, dass Inferenz nur von Daten abhängen sollte, die beobachtet wurden, und nicht von Daten, die möglicherweise beobachtet wurden, aber nicht. Die LP sagt
quelle
Es wird eine Verzerrung (im "statistischen Sinne") geben, wenn die Beendigung des Studiums nicht zufällig erfolgt.
In einer Reihe von Experimenten, die zum Abschluss kommen, zeigen die "frühen" Ergebnisse von (a) einigen Experimenten, die letztendlich "keine Wirkung" finden, eine Wirkung (als Ergebnis des Zufalls) und (b) einigen Experimenten, die letztendlich eine Wirkung finden Der Effekt zeigt "no effect" (wahrscheinlich aufgrund eines Mangels an Leistung). In einer Welt, in der Sie Studien beenden, werden Sie, wenn Sie (a) öfter als (b) beenden, über eine Reihe von Studien hinweg voreingenommen sein, um einen Effekt zu finden. (Gleiche Logik gilt für Effektgrößen ; Abschluss Studien , die „größer als erwartet“ -Effekt früh häufiger als diejenigen , die zeigen , „wie erwartet oder senken“ zeigen Anzahl der Ergebnisse aufblasen „großer Wirkung.“)
Wenn in der Tat medizinische Studien abgebrochen werden, wenn frühe Ergebnisse einen positiven Effekt zeigen - um die Behandlung für Patienten mit Placebo oder andere Patienten verfügbar zu machen -, aber nicht, wenn frühe Ergebnisse nicht schlüssig sind, liegt bei solchen Tests ein größerer Fehler vom Typ 1 vor als es würde geben, wenn alle Experimente zu Ende geführt würden. Das heißt aber nicht, dass die Praxis falsch ist. Die Kosten für Typ-1-Fehler könnten moralisch gesehen niedriger sein, als die Behandlung so schnell zu verweigern, wie dies ansonsten bei Behandlungen der Fall wäre, bei denen sich gezeigt hätte, dass sie am Ende des vollständigen Versuchs wirksam sind.
quelle