Wenn wir Gruppen von Kontrollvariablen vergleichen, sollten wir Äquivalenztests verwenden?

13

In vielen Veröffentlichungen, die sich mit Behandlungen und Ergebnissen befassen, sehe ich Tabellen (normalerweise "Tabelle 1") von so genannten Störgrößen (häufig demografische Daten, manchmal medizinische Bedingungen) mit Signifikanz- und Texttests wie "Die Gruppen waren sich dort weitgehend ähnlich" waren keine signifikanten Unterschiede zu XXXXX, siehe Tabelle ". Das klare Ziel ist es also zu zeigen, dass die Gruppen, die verschiedenen Behandlungen zugeordnet sind, ähnlich sind.

Dies scheint mir jedoch, als könnte es "die Null akzeptieren" und das, was wir tun sollten (oder fordern, getan zu werden), sind Äquivalenztests.

Dies kann für randomisierte Studien oder Beobachtungsstudien gelten. Vermisse ich hier etwas?

Peter Flom - Wiedereinsetzung von Monica
quelle
1
Ich nehme an, Sie beziehen sich auf "Tabelle 1". Fragen Sie nach RCTs an sich oder auch nach Beobachtungsstudien?
gung - Wiedereinsetzung von Monica
@gung ja, es ist normalerweise Tabelle 1. Es könnte Beobachtungsstudien oder RCTs sein. Ich habe meine Frage bearbeitet, um Ihren Kommentar wiederzugeben.
Peter Flom - Wiedereinsetzung von Monica
1
Auch wenn ich das Risiko eingehen muss, das Offensichtliche zu sagen: Es gibt einige Artikel, die sich mit diesem Thema befassen (z. B. de Boer et al. (2015) ). Ich denke, der Konsens ist, dass Hypothesentests in Basistabellen aufgegeben werden sollten. Das CONSORT-Statement für klinische Studien sowie das STROBE-Statement für Beobachtungsstudien empfehlen, Hypothesentests in Basistabellen zu vermeiden. Ob Äquivalenztests besser sind, weiß ich nicht.
COOLSerdash
Ob Sie gegen Null oder auf Äquivalenz testen, hängt von der Motivation ab und wirkt sich auf die Diskussion aus, die sich aus der Tabelle ergibt. Die Behauptung der Gleichwertigkeit ist eine sehr starke Bedingung, und ich vermute, dass sie in den meisten Fällen nicht erforderlich ist, es sei denn, der Autor möchte eindeutige Schlussfolgerungen zur Demographie usw. ziehen. Es wäre besser und angemessener, ein formalisiertes Verfahren zur Quantifizierung des Verzerrungspotenzials in Bezug auf Ungleichgewichte in den assoziierten Ländern zu haben Demografie. Ich habe das nicht geprüft, würde mich aber für andere Meinungen interessieren, wie das aussehen könnte.
ReneBt

Antworten:

10

Dies ist eine komplizierte Angelegenheit, die viele verwandte Fragen aufwirft: 1) klar spezifizieren einer Hypothese, 2) verstehen, welche Kausalmechanismen einem hypothetischen Effekt zugrunde liegen (können) und 3) Wahl / Darstellungsstil.

Du hast Recht , dass, wenn wir solide statistische Praxis anwenden, zu behaupten , dass „Gruppen sind ähnlich“, würde man einen Test der Äquivalenz durchführen. Allerdings Tests der Gleichwertigkeit leiden die gleichen Probleme wie ihr NHST Gegenstück: die Macht ist nur ein Spiegelbild der Stichprobengröße und die Anzahl der Vergleiche: wir Unterschiede erwarten, aber ihr Ausmaß und die Wirkung auf einer Haupt- Analyse ist viel wichtiger.

In diesen Situationen sind Basisvergleiche fast immer Red Herings. Bessere Methoden (aus Wissenschaft und Statistik) können angewendet werden. Ich habe ein paar Bestandskonzepte / Antworten, die ich bei der Beantwortung von Fragen wie diesen berücksichtige.

Eine "Gesamt" -Säule ist wichtiger als Spalten, die nach Behandlung aufgeteilt werden. Für diese Werte ist eine Diskussion angebracht .

In klinischen Studien wird die Sicherheitsprobe normalerweise analysiert. Dies ist die Untergruppe derer, die zuerst angesprochen, dann zugestimmt, dann randomisiert und schließlich mindestens einer Iteration der Kontrolle oder Behandlung ausgesetzt wurden. Dabei sind wir unterschiedlich stark partizipiert.

Der wahrscheinlich wichtigste und ausgelassene Aspekt dieser Studien ist die Darstellung der Ergebnisse von Tabelle 1 in ihrer Gesamtheit . Damit wird der wichtigste Zweck einer Tabelle 1 erreicht: Anderen Forschern zu demonstrieren, wie verallgemeinerbar die Stichprobe für die breitere Population ist, für die die Ergebnisse gelten.

Ich finde es überraschend, wie fixiert Forscher, Leser und Rezensenten über die tangentialen Trends innerhalb der Patienteneigenschaften sind, wenn die Einschluss- / Ausschlusskriterien und die Generalisierbarkeit der Stichprobe völlig missachtet werden.

Ich schäme mich zu sagen, dass ich ein Analyst in einem Prozess war, der dies als Problem übersah. Wir haben Patienten rekrutiert und dann aus logistischen Gründen fast ein Jahr gewartet, bis die Intervention durchgeführt wurde. Das Konsortialdiagramm zeigte nicht nur einen großen Rückgang zwischen diesen Perioden, sondern auch eine Verschiebung der Stichprobe. Das Ergebnis war größtenteils arbeitslos / unterbeschäftigt, älter und gesünder als die Menschen, die wir erreichen wollten. Ich hatte große Bedenken hinsichtlich der Verallgemeinerbarkeit der Studie, aber es war schwierig, dafür einzutreten, dass diese Bedenken bekannt gemacht wurden.

Der Leistungs- und Typ-I-Fehler von Tests zum Erkennen eines Ungleichgewichts in Grundlinienmerkmalen hängt von der tatsächlichen Anzahl von Merkmalen ab

Wie bereits erwähnt, besteht der Zweck der Darstellung einer solch detaillierten Auflistung der Basisvariablen darin, eine gründliche Momentaufnahme der Stichprobe zu erstellen. ihre Krankengeschichte, Labore, Medikamente und Demographie. Dies sind alles Aspekte, die Ärzte verwenden, um Patienten die Behandlung zu empfehlen. Es wird angenommen, dass sie alle das Ergebnis vorhersagen. Aber die Anzahl solcher Faktoren ist erschütternd. Es können bis zu 30 verschiedene Variablen verglichen werden. Das grobe Risiko eines Fehlers vom Typ I ist 1- (1-0.05) ^ 30 = 0,79. Bonferroni- oder Permutationskorrekturen sind ratsam, wenn Tests durchgeführt werden müssen .

Statistische Tests in ihrer reinsten Form sind unparteiisch und müssen vorab spezifiziert werden. Die Auswahl und Darstellung der Basismerkmale ist jedoch häufig relativ. Ich halte den letzteren Ansatz für angemessen: Wenn wir wie in meinem Versuch interessante Merkmale finden, die die Stichprobe effektiv beschreiben, sollten wir die Freiheit haben, diese Werte ad hoc darzustellen . Tests können durchgeführt werden, wenn sie von beliebigem Wert sind, es gelten jedoch die üblichen Vorsichtsmaßnahmen: Es handelt sich nicht um interessante Hypothesen, es besteht ein hohes Risiko der Verwechslung, was signifikante und nicht signifikante Ergebnisse bedeuten, und die Ergebnisse spiegeln eher die Ergebnisse wider Stichprobengröße und Präsentation Überlegungen als jede Wahrheit.

Eine Rerandomisierung kann nur durchgeführt werden, bevor die Patienten einer Behandlung ausgesetzt werden

Wie bereits erwähnt, handelt es sich bei der analysierten Probe in der Regel um die Sicherheitsprobe. Die Rerandomisierung ist jedoch ein stark befürworteter und theoretisch konsistenter Ansatz für Patienten, die keiner Studienbehandlung ausgesetzt waren. Dies gilt nur für Einstellungen, in denen die Stapelregistrierung durchgeführt wird. Hier werden 100 Teilnehmer rekrutiert und randomisiert. Wenn zum Beispiel die Wahrscheinlichkeit einen hohen Anteil älterer Menschen einer Gruppe zuordnet, kann die Stichprobe erneut randomisiert werden, um das Alter auszugleichen. Dies kann nicht mit sequentieller oder gestaffelter Registrierung durchgeführt werden. Dies ist die Einstellung, in der die meisten Studien durchgeführt werden. Dies liegt daran, dass der Zeitpunkt der Aufnahme dazu tendiert, den Patientenstatus anhand der vorherrschenden "Verzerrung" (verwirrende Kriterien für Vorfälle und die vorherrschende Eignung) vorherzusagen.

Ein ausgeglichenes Design ist keine Voraussetzung für eine gültige Schlussfolgerung

Die Randomisierungsannahme besagt, dass theoretisch alle Teilnehmer im Durchschnitt gleiche Verteilungen von Kovariaten haben werden. Wie bereits erwähnt, ist die kumulative Wahrscheinlichkeit eines Ungleichgewichts beim Vergleich von 30 oder mehr Niveaus nicht vernachlässigbar. Tatsächlich kann das Ungleichgewicht der Kovariaten bei der Betrachtung des Ganzen irrelevant sein.

Wenn die Randomisierung gerecht ist, kann es sein, dass das Alter in der Behandlungsgruppe erhöht ist, während in der Kontrollgruppe das Rauchen erhöht ist. Beide Faktoren tragen individuell zum Risiko des Endpunktes bei. Was für eine effiziente und gültige Schlussfolgerung erforderlich ist, ist, dass der Neigungswert zwischen den Gruppen ausgeglichen ist. Dies ist eine viel schwächere Bedingung. Leider kann die Neigung nicht ohne ein Risikomodell auf das Gleichgewicht überprüft werden. Es ist jedoch leicht zu erkennen, dass eine solche Tendenz von einer Kombination von Kovariaten abhängt, und die Wahrscheinlichkeit eines Ungleichgewichts der Tendenzen in einer randomisierten Stichprobe ist weitaus weniger wahrscheinlich, obwohl es unmöglich ist, genau zu zeigen.

Wenn ein Risikomodell bekannt ist oder starke Prädiktoren für das Ergebnis vorliegen, werden effizientere und valide RCTs durchgeführt, indem diese Faktoren einfach angepasst werden, unabhängig davon, ob sie zwischen den Behandlungsgruppen ausgewogen sind

Eine meiner Lieblingsarbeiten, 7 Mythen über randomisierte kontrollierte Studien , diskutiert dies. Die Anpassung verbessert die Effizienz, wenn die Anpassungsvariable das Ergebnis stark vorhersagt. Es stellt sich heraus, dass selbst bei einem perfekten 50/50-Gleichgewicht, bei dem beispielsweise eine blockierte Randomisierung verwendet wird, oder auch nur zufällig, wie die Randomisierung durchgeführt wurde, die Anpassung die CIs verringert, wodurch weniger Teilnehmer eine Studie mit gleicher Leistung benötigen. Dies reduziert Kosten und Risiken. Es ist schockierend, dass dies nicht öfter gemacht wird.

Beobachtungsstudien erfordern eine Kontrolle der Verwirrung, unabhängig davon, was Tabelle 1 zeigt

Die Randomisierungsannahme beseitigt die Verwirrung. Bei einer nicht randomisierten Behandlung kommt es zu Verwirrung. Ein Confounder ist eine Variable, die für das Ergebnis ursächlich ist und den Erhalt der quasi-experimentellen Behandlung vorhersagt. Es gibt keinen Test, um festzustellen, welche Variablen Störfaktoren sind. Das Risiko, in die Daten zu schauen, um diese Fragen zu beantworten, besteht darin, dass Störfaktoren praktisch nicht von Mediatoren oder Kollidatoren zu unterscheiden sind, ohne dass die Längswerte absolut perfekt gemessen werden (und selbst dann ...). Wenn Sie die Mediatoren anpassen, wird jeder Effekt gedämpft. Die Anpassung der Kollider kann zu jeder Art von Verzerrung führen. Außerdem muss man sich nicht auf eine Gesamtmenge von Störfaktoren einstellen, sondern muss das Backdoor-Kriterium entfernen.

Zum Beispiel bei einer Untersuchung der Lungenfunktion und des Rauchens bei Jugendlichen: Ältere Kinder rauchen mit größerer Wahrscheinlichkeit, aber da sie größer sind, ist ihre Lungenfunktion größer. Es stellt sich heraus, dass das Einstellen der Höhe allein ausreicht, um Störungen zu beseitigen, da es das Backdoor-Kriterium erfüllt. Eine weitere Anpassung an das Alter verliert einfach an Effizienz. Die bloße Überprüfung des "Gleichgewichts" einer Tabelle 1 bei Rauchern und Nichtrauchern würde jedoch darauf hindeuten, dass sowohl das Alter als auch die Größe "aus dem Gleichgewicht" sind und daher kontrolliert werden sollten. Das ist falsch.

AdamO
quelle
1
Ich stimme dem zu und kenne die Probleme mit p-Werten sehr gut. (Sie werden auf dieser Seite nur wenige Leute finden oder sind p-resistenter als ich). Und ich bin alle für bessere Methoden, von denen Sie einige erheben. Natürlich können einige Variablen Unterdrücker sein (so dass das Einbeziehen die Größe des Haupteffekts erhöht). Wenn ich jedoch beispielsweise eine Arbeit für eine Zeitschrift überprüfe, halten Sie es dann für gut, Äquivalenztests für Tabelle 1 zu empfehlen, oder möchten Sie hier Ihre vollständige Antwort einholen?
Peter Flom - Wiedereinsetzung von Monica
1
@PeterFlom Ich sehe den Kontext jetzt ein bisschen besser. Als statistischer Gutachter würde ich prüfen, ob der Kommentar für die nachfolgenden Analysen relevant ist. Wenn es nicht relevant ist, würde ich sie ermutigen, diesen Kommentar zu streichen, da er nicht nützlich ist. Wenn es relevant ist, würde ich sie ermutigen, a) einen robusteren Analyseansatz in Betracht zu ziehen oder b) Sensitivitätsanalysen zu verwenden, um festzustellen, ob ein möglicher Einfluss vorliegt. Das Gleichgewicht der Kovariaten spielt nur insofern eine Rolle, als es die Analysen beeinflusst. Daher würde ich es begrüßen, wenn hier die Aufmerksamkeit geschenkt wird. Vielleicht ist es kein auf Neigung abgestimmtes Design, oder?
AdamO
1
@PeterFlom Wäre es als Rezensent nicht sinnvoll, p-Werte in "Tabelle 1" insgesamt zu entfernen?
Amöbe sagt Reinstate Monica
1
AdamO, tolle Antwort (+1), aber ich bin etwas besorgt über die Empfehlung, dass mehrere Testanpassungen im Kontext von "Tabelle 1" "ratsam" sind. Ist der Fehler Typ I hier von Belang? Ich bin der Meinung, dass in diesem Fall der Typ-II-Fehler tatsächlich viel wichtiger ist (man möchte nicht die Tatsache außer Acht lassen, dass sich einige Basisvariablen zwischen der Behandlung und den Kontrollgruppen unterscheiden). Bei Verwendung von Bonferroni steigt der Typ-II-Fehler stark an. Dies hängt mit dem Punkt von @ Peter über Äquivalenztests zusammen: In gewisser Weise tauschen Typ I und Typ II Orte aus, wenn Sie zum Standpunkt "Äquivalenz" wechseln.
Amöbe sagt Reinstate Monica
1
@amoeba Auf jeden Fall. Wenn wir auf diesem Ansatz bestehen (nicht auf meiner Empfehlung), müssen NHSTs den Fehler vom Typ I kontrollieren. Ich denke, mein Punkt ist, dass wir FWER kontrollieren sollten, weil es uns egal ist, welche Variable unausgeglichen ist. Sie kann auf einen großzügigen Wert wie 0,2 eingestellt werden. Ich bin mir nicht bekannt , dass Äquivalenzprüfung , für das die Leistung geht nach oben , wie die Stichprobengröße zunimmt, so Rechtfertigungen für solche Tests wortreich, sind subjektiv und ungenau.
AdamO