In vielen Veröffentlichungen, die sich mit Behandlungen und Ergebnissen befassen, sehe ich Tabellen (normalerweise "Tabelle 1") von so genannten Störgrößen (häufig demografische Daten, manchmal medizinische Bedingungen) mit Signifikanz- und Texttests wie "Die Gruppen waren sich dort weitgehend ähnlich" waren keine signifikanten Unterschiede zu XXXXX, siehe Tabelle ". Das klare Ziel ist es also zu zeigen, dass die Gruppen, die verschiedenen Behandlungen zugeordnet sind, ähnlich sind.
Dies scheint mir jedoch, als könnte es "die Null akzeptieren" und das, was wir tun sollten (oder fordern, getan zu werden), sind Äquivalenztests.
Dies kann für randomisierte Studien oder Beobachtungsstudien gelten. Vermisse ich hier etwas?
equivalence
controlling-for-a-variable
Peter Flom - Wiedereinsetzung von Monica
quelle
quelle
Antworten:
Dies ist eine komplizierte Angelegenheit, die viele verwandte Fragen aufwirft: 1) klar spezifizieren einer Hypothese, 2) verstehen, welche Kausalmechanismen einem hypothetischen Effekt zugrunde liegen (können) und 3) Wahl / Darstellungsstil.
Du hast Recht , dass, wenn wir solide statistische Praxis anwenden, zu behaupten , dass „Gruppen sind ähnlich“, würde man einen Test der Äquivalenz durchführen. Allerdings Tests der Gleichwertigkeit leiden die gleichen Probleme wie ihr NHST Gegenstück: die Macht ist nur ein Spiegelbild der Stichprobengröße und die Anzahl der Vergleiche: wir Unterschiede erwarten, aber ihr Ausmaß und die Wirkung auf einer Haupt- Analyse ist viel wichtiger.
In diesen Situationen sind Basisvergleiche fast immer Red Herings. Bessere Methoden (aus Wissenschaft und Statistik) können angewendet werden. Ich habe ein paar Bestandskonzepte / Antworten, die ich bei der Beantwortung von Fragen wie diesen berücksichtige.
Eine "Gesamt" -Säule ist wichtiger als Spalten, die nach Behandlung aufgeteilt werden. Für diese Werte ist eine Diskussion angebracht .
In klinischen Studien wird die Sicherheitsprobe normalerweise analysiert. Dies ist die Untergruppe derer, die zuerst angesprochen, dann zugestimmt, dann randomisiert und schließlich mindestens einer Iteration der Kontrolle oder Behandlung ausgesetzt wurden. Dabei sind wir unterschiedlich stark partizipiert.
Der wahrscheinlich wichtigste und ausgelassene Aspekt dieser Studien ist die Darstellung der Ergebnisse von Tabelle 1 in ihrer Gesamtheit . Damit wird der wichtigste Zweck einer Tabelle 1 erreicht: Anderen Forschern zu demonstrieren, wie verallgemeinerbar die Stichprobe für die breitere Population ist, für die die Ergebnisse gelten.
Ich finde es überraschend, wie fixiert Forscher, Leser und Rezensenten über die tangentialen Trends innerhalb der Patienteneigenschaften sind, wenn die Einschluss- / Ausschlusskriterien und die Generalisierbarkeit der Stichprobe völlig missachtet werden.
Ich schäme mich zu sagen, dass ich ein Analyst in einem Prozess war, der dies als Problem übersah. Wir haben Patienten rekrutiert und dann aus logistischen Gründen fast ein Jahr gewartet, bis die Intervention durchgeführt wurde. Das Konsortialdiagramm zeigte nicht nur einen großen Rückgang zwischen diesen Perioden, sondern auch eine Verschiebung der Stichprobe. Das Ergebnis war größtenteils arbeitslos / unterbeschäftigt, älter und gesünder als die Menschen, die wir erreichen wollten. Ich hatte große Bedenken hinsichtlich der Verallgemeinerbarkeit der Studie, aber es war schwierig, dafür einzutreten, dass diese Bedenken bekannt gemacht wurden.
Der Leistungs- und Typ-I-Fehler von Tests zum Erkennen eines Ungleichgewichts in Grundlinienmerkmalen hängt von der tatsächlichen Anzahl von Merkmalen ab
Wie bereits erwähnt, besteht der Zweck der Darstellung einer solch detaillierten Auflistung der Basisvariablen darin, eine gründliche Momentaufnahme der Stichprobe zu erstellen. ihre Krankengeschichte, Labore, Medikamente und Demographie. Dies sind alles Aspekte, die Ärzte verwenden, um Patienten die Behandlung zu empfehlen. Es wird angenommen, dass sie alle das Ergebnis vorhersagen. Aber die Anzahl solcher Faktoren ist erschütternd. Es können bis zu 30 verschiedene Variablen verglichen werden. Das grobe Risiko eines Fehlers vom Typ I ist 1- (1-0.05) ^ 30 = 0,79. Bonferroni- oder Permutationskorrekturen sind ratsam, wenn Tests durchgeführt werden müssen .
Statistische Tests in ihrer reinsten Form sind unparteiisch und müssen vorab spezifiziert werden. Die Auswahl und Darstellung der Basismerkmale ist jedoch häufig relativ. Ich halte den letzteren Ansatz für angemessen: Wenn wir wie in meinem Versuch interessante Merkmale finden, die die Stichprobe effektiv beschreiben, sollten wir die Freiheit haben, diese Werte ad hoc darzustellen . Tests können durchgeführt werden, wenn sie von beliebigem Wert sind, es gelten jedoch die üblichen Vorsichtsmaßnahmen: Es handelt sich nicht um interessante Hypothesen, es besteht ein hohes Risiko der Verwechslung, was signifikante und nicht signifikante Ergebnisse bedeuten, und die Ergebnisse spiegeln eher die Ergebnisse wider Stichprobengröße und Präsentation Überlegungen als jede Wahrheit.
Eine Rerandomisierung kann nur durchgeführt werden, bevor die Patienten einer Behandlung ausgesetzt werden
Wie bereits erwähnt, handelt es sich bei der analysierten Probe in der Regel um die Sicherheitsprobe. Die Rerandomisierung ist jedoch ein stark befürworteter und theoretisch konsistenter Ansatz für Patienten, die keiner Studienbehandlung ausgesetzt waren. Dies gilt nur für Einstellungen, in denen die Stapelregistrierung durchgeführt wird. Hier werden 100 Teilnehmer rekrutiert und randomisiert. Wenn zum Beispiel die Wahrscheinlichkeit einen hohen Anteil älterer Menschen einer Gruppe zuordnet, kann die Stichprobe erneut randomisiert werden, um das Alter auszugleichen. Dies kann nicht mit sequentieller oder gestaffelter Registrierung durchgeführt werden. Dies ist die Einstellung, in der die meisten Studien durchgeführt werden. Dies liegt daran, dass der Zeitpunkt der Aufnahme dazu tendiert, den Patientenstatus anhand der vorherrschenden "Verzerrung" (verwirrende Kriterien für Vorfälle und die vorherrschende Eignung) vorherzusagen.
Ein ausgeglichenes Design ist keine Voraussetzung für eine gültige Schlussfolgerung
Die Randomisierungsannahme besagt, dass theoretisch alle Teilnehmer im Durchschnitt gleiche Verteilungen von Kovariaten haben werden. Wie bereits erwähnt, ist die kumulative Wahrscheinlichkeit eines Ungleichgewichts beim Vergleich von 30 oder mehr Niveaus nicht vernachlässigbar. Tatsächlich kann das Ungleichgewicht der Kovariaten bei der Betrachtung des Ganzen irrelevant sein.
Wenn die Randomisierung gerecht ist, kann es sein, dass das Alter in der Behandlungsgruppe erhöht ist, während in der Kontrollgruppe das Rauchen erhöht ist. Beide Faktoren tragen individuell zum Risiko des Endpunktes bei. Was für eine effiziente und gültige Schlussfolgerung erforderlich ist, ist, dass der Neigungswert zwischen den Gruppen ausgeglichen ist. Dies ist eine viel schwächere Bedingung. Leider kann die Neigung nicht ohne ein Risikomodell auf das Gleichgewicht überprüft werden. Es ist jedoch leicht zu erkennen, dass eine solche Tendenz von einer Kombination von Kovariaten abhängt, und die Wahrscheinlichkeit eines Ungleichgewichts der Tendenzen in einer randomisierten Stichprobe ist weitaus weniger wahrscheinlich, obwohl es unmöglich ist, genau zu zeigen.
Wenn ein Risikomodell bekannt ist oder starke Prädiktoren für das Ergebnis vorliegen, werden effizientere und valide RCTs durchgeführt, indem diese Faktoren einfach angepasst werden, unabhängig davon, ob sie zwischen den Behandlungsgruppen ausgewogen sind
Eine meiner Lieblingsarbeiten, 7 Mythen über randomisierte kontrollierte Studien , diskutiert dies. Die Anpassung verbessert die Effizienz, wenn die Anpassungsvariable das Ergebnis stark vorhersagt. Es stellt sich heraus, dass selbst bei einem perfekten 50/50-Gleichgewicht, bei dem beispielsweise eine blockierte Randomisierung verwendet wird, oder auch nur zufällig, wie die Randomisierung durchgeführt wurde, die Anpassung die CIs verringert, wodurch weniger Teilnehmer eine Studie mit gleicher Leistung benötigen. Dies reduziert Kosten und Risiken. Es ist schockierend, dass dies nicht öfter gemacht wird.
Beobachtungsstudien erfordern eine Kontrolle der Verwirrung, unabhängig davon, was Tabelle 1 zeigt
Die Randomisierungsannahme beseitigt die Verwirrung. Bei einer nicht randomisierten Behandlung kommt es zu Verwirrung. Ein Confounder ist eine Variable, die für das Ergebnis ursächlich ist und den Erhalt der quasi-experimentellen Behandlung vorhersagt. Es gibt keinen Test, um festzustellen, welche Variablen Störfaktoren sind. Das Risiko, in die Daten zu schauen, um diese Fragen zu beantworten, besteht darin, dass Störfaktoren praktisch nicht von Mediatoren oder Kollidatoren zu unterscheiden sind, ohne dass die Längswerte absolut perfekt gemessen werden (und selbst dann ...). Wenn Sie die Mediatoren anpassen, wird jeder Effekt gedämpft. Die Anpassung der Kollider kann zu jeder Art von Verzerrung führen. Außerdem muss man sich nicht auf eine Gesamtmenge von Störfaktoren einstellen, sondern muss das Backdoor-Kriterium entfernen.
Zum Beispiel bei einer Untersuchung der Lungenfunktion und des Rauchens bei Jugendlichen: Ältere Kinder rauchen mit größerer Wahrscheinlichkeit, aber da sie größer sind, ist ihre Lungenfunktion größer. Es stellt sich heraus, dass das Einstellen der Höhe allein ausreicht, um Störungen zu beseitigen, da es das Backdoor-Kriterium erfüllt. Eine weitere Anpassung an das Alter verliert einfach an Effizienz. Die bloße Überprüfung des "Gleichgewichts" einer Tabelle 1 bei Rauchern und Nichtrauchern würde jedoch darauf hindeuten, dass sowohl das Alter als auch die Größe "aus dem Gleichgewicht" sind und daher kontrolliert werden sollten. Das ist falsch.
quelle