Klartextbedeutung von "abhängigen" und "unabhängigen" Tests in der Literatur zu Mehrfachvergleichen?

18

Sowohl in der Literatur zur familienbezogenen Fehlerrate (FWER) als auch zur Falschentdeckungsrate (FDR) gelten bestimmte Methoden zur Steuerung von FWER oder FDR als geeignet für abhängige oder unabhängige Tests. Zum Beispiel schrieb Holm 1979 in dem Aufsatz "Ein einfaches sequentiell rejektives Mehrfachtestverfahren", um seine Step-up-Šidák-Methode mit seiner Step-up-Bonferroni-Kontrollmethode zu vergleichen:

Dieselbe Rechenvereinfachung wird erhalten, wenn die Teststatistiken unabhängig sind .

In "Controlling the False Discovery Rate" von Benjamini und Hochberg (1995) schreiben die Autoren:

Satz 1. Für unabhängige Teststatistiken und für jede Konfiguration von falschen Nullhypothesen steuert die obige Prozedur den FDR bei .q

Später, im Jahr 2001, schreiben Benjamini und Yekutieli:

1.3. Das Problem . Bei dem Versuch, den FDR-Ansatz in der Praxis zu verwenden, werden abhängige Teststatistiken häufiger angetroffen als unabhängige , wobei das Beispiel mit mehreren Endpunkten ein typisches Beispiel ist.

Welche besonderen Bedeutungen von abhängig und unabhängig verwenden diese Autoren? Ich würde mich über formale Definitionen freuen, die Tests voneinander abhängig oder unabhängig machen, wenn sie mit einer Erklärung in einfacher Sprache einhergehen.

Ich kann mir ein paar verschiedene mögliche Bedeutungen vorstellen, aber ich bin mir nicht ganz sicher, welche, wenn überhaupt, es sein könnten:

  • "Abhängig" bedeutet multivariate Tests (dh viele abhängige Variablen mit gleichen oder ähnlichen Prädiktoren); Unabhängig bedeutet univariate Tests (dh viele unabhängige Variablen, eine abhängige Variable).

  • "Abhängig" bedeutet Tests, die auf gepaarten / übereinstimmenden Probanden basieren (z. B. gepaarter t- Test, ANOVA mit wiederholten Messungen usw.); "unabhängig" bedeutet ein ungepaartes / unabhängiges Stichproben-Studiendesign.

  • "Abhängig" bedeutet, dass die Wahrscheinlichkeit, dass ein Test abgelehnt wird, mit der Wahrscheinlichkeit korreliert, dass ein anderer Test abgelehnt wird, und "positive Abhängigkeit" bedeutet, dass diese Korrelation positiv ist; "unabhängig" bedeutet, dass die Ablehnungswahrscheinlichkeiten nicht korreliert sind.

Literatur
Benjamini, Y. und Hochberg, Y. (1995). Kontrolle der False Discovery Rate: Ein praktischer und leistungsstarker Ansatz für mehrere Tests . Zeitschrift der Royal Statistical Society. Serie B (methodisch) , 57 (1): 289–300.

Benjamini, Y. und Yekutieli, D. (2001). Die Kontrolle der Falschentdeckungsrate bei Mehrfachtests in Abhängigkeit . Annals of Statistics , 29 (4): 1165–1188.

Holm, S. (1979). Ein einfaches sequentiell ablehnendes Mehrfachtestverfahren . Scandinavian Journal of Statistics , 6 (65-70): 1979.

Alexis
quelle
1
Eine Teststatistik ist eine Zufallsvariable. "Unabhängig" hat in diesem Zusammenhang genau die gleiche Bedeutung wie für eine beliebige Menge von Zufallsvariablen.
whuber
Vielen Dank @whuber. Möchtest du das in eine Antwort umwandeln? :)
Alexis

Antworten:

13

"Mehrere Vergleiche" ist die Bezeichnung für das allgemeine Problem, Entscheidungen auf der Grundlage der Ergebnisse mehrerer Tests zu treffen. Die Natur des Problems wird durch die berühmte XKCD-Karikatur "Green Jelly Bean" verdeutlicht, in der die Forscher Hypothesentests zum Zusammenhang zwischen dem Verzehr von Jelly Beans (in 20 verschiedenen Farben) und Akne durchführten. Ein Test ergab einen p-Wert von weniger als , was zu dem Schluss führte, dass "grüne Gummibärchen Akne verursachen". Der Witz ist, dass p-Werte von Chance von , kleiner als , so dass wir intuitiv erwarten würden, dass ein p-Wert unter verschiedenen Tests so niedrig ist .1 / 20 1 / 20 201/201/201/2020

Was der Cartoon nicht sagt, ist, ob die Tests auf separaten Datensätzen oder auf einem Datensatz basierten.20

Bei separaten Datensätzen besteht für jedes der Ergebnisse eine Wahrscheinlichkeit von dass es "signifikant" ist. Grundlegende Eigenschaften von Wahrscheinlichkeiten (unabhängiger Ereignisse) implizieren dann, dass die Wahrscheinlichkeit, dass alle Ergebnisse "unbedeutend" sind, beträgt . Die verbleibende Chance von ist groß genug, um unsere Intuition zu bestätigen, dass ein einziges "signifikantes" Ergebnis in dieser großen Gruppe von Ergebnissen keine Überraschung ist; Einem solchen Ergebnis kann mit Ausnahme des Zufalls kein Grund zugeordnet werden.1 / 20 20 ( 1 - 0,05 ) 200.36 1 - 0,36 = 0,64201/2020(10.05)200.3610.36=0.64

Wenn die Ergebnisse jedoch auf einem gemeinsamen Datensatz basieren würden, wäre die vorstehende Berechnung falsch: Es wird davon ausgegangen, dass alle Ergebnisse statistisch unabhängig sind. Aber warum sollten sie es nicht sein? Die Varianzanalyse liefert ein Standardbeispiel: Wenn zwei oder mehr Behandlungsgruppen mit einer Kontrollgruppe verglichen werden, beinhaltet jeder Vergleich die gleichen Kontrollergebnisse. Die Vergleiche sind nicht unabhängig. Beispielsweise können sich aufgrund von zufälligen Abweichungen bei den Kontrollen "signifikante" Unterschiede ergeben . Eine solche Variation könnte gleichzeitig die Vergleiche mit jeder Gruppe verändern.202020

(ANOVA behandelt dieses Problem anhand seines gesamten F-Tests. Es ist eine Art Vergleich, "um sie alle zu beherrschen": Wir werden dem Vergleich von Gruppe zu Gruppe nicht vertrauen, es sei denn, dieser F-Test ist zuerst signifikant.)

Wir können das Wesen dieser Situation mit dem folgenden Rahmen abstrahieren . Bei mehreren Vergleichen geht es darum, eine Entscheidung der p-Werte von verschiedenen Tests zu treffen . Diese p-Werte sind Zufallsvariablen. Unter der Annahme, dass alle entsprechenden Nullhypothesen logisch konsistent sind, sollte jede eine einheitliche Verteilung haben. Wenn wir ihre gemeinsame Verteilung kennen, können wir vernünftige Wege finden, um alle zu einer einzigen Entscheidung zusammenzufassen. Ansonsten können wir uns in der Regel nur auf ungefähre Grenzen verlassen (die beispielsweise die Grundlage für die Bonferroni-Korrektur bilden).n n(p1,p2,,pn)nn

Gemeinsame Verteilungen unabhängiger Zufallsvariablen sind einfach zu berechnen. In der Literatur wird daher zwischen dieser Situation und dem Fall der Nichtunabhängigkeit unterschieden.

Dementsprechend ist die korrekte Bedeutung von "unabhängig" in den Zitaten im üblichen statistischen Sinne von unabhängigen Zufallsvariablen.


Man beachte, dass eine Annahme erforderlich war, um zu dieser Schlussfolgerung zu gelangen: nämlich, dass alle der Nullhypothesen logisch konsistent sind. Als Beispiel für das, was vermieden wird, sollten Sie zwei Tests mit einem Stapel univariater Daten , die als Zufallsstichprobe aus einer Normalverteilung mit unbekanntem Mittelwert . Der erste ist ein t-Test von mit dem p-Wert und der zweite ist ein t-Test von mit dem p-Wert . Da beide logisch nicht gleichzeitig gelten können, wäre es problematisch, über "die Nullverteilung" von zu sprechen.( x 1 , , x m ) μ μ = 0 p 1 μ = 1 p 2 ( p 1 , p 2 )n(x1,,xm)μμ=0p1μ=1p2(p1,p2). In diesem Fall kann es so etwas überhaupt nicht geben! Daher kann das Konzept der statistischen Unabhängigkeit manchmal nicht einmal angewendet werden.

whuber
quelle
+1 Danke, whuber! Wäre es für das ANOVA-Beispiel der Fall, dass ein paarweiser Vergleich nach ANOVA, bei dem alle möglichen Paare getestet werden, "abhängig" wäre, oder nur der Fall, bei dem eine Gruppe mit einer Auswahl anderer verglichen wird? (Ich denke das erstere, will aber sicher sein).
Alexis
2
In der ANOVA wird die Varianz der Residuen aus allen Daten geschätzt. Somit sind zwei beliebige Vergleiche (geringfügig) abhängig, wenn auch nur aus diesem Grund, selbst wenn die Vergleiche keine gemeinsamen Gruppen aufweisen. Wenn die Vergleiche Gruppen gemeinsam haben (wie "A" vs "C" und "B" vs "C"), ist die Abhängigkeit offensichtlicher und ausgeprägter.
Whuber