Wenn mehrere Vergleiche "geplant" sind, müssen Sie dann noch mehrere Vergleiche korrigieren?

20

Ich überprüfe ein Papier, das> 15 separate 2x2 Chi Square-Tests durchgeführt hat. Ich habe vorgeschlagen, dass sie für mehrere Vergleiche korrigieren müssen, aber sie haben geantwortet, dass alle Vergleiche geplant wurden, und daher ist dies nicht erforderlich.

Ich bin der Meinung, dass dies nicht korrekt sein muss, aber keine Ressourcen finden kann, die explizit angeben, ob dies der Fall ist.

Kann mir jemand dabei helfen?


Aktualisieren:

Vielen Dank für all Ihre sehr hilfreichen Antworten. Auf die Anfrage von @ gung nach weiteren Informationen zur Studie und zu den Analysen hin werden Zählungsdaten für zwei Arten von Teilnehmern (Studenten, Nicht-Studenten) unter zwei Bedingungen über drei Zeiträume hinweg verglichen. Die mehreren 2x2-Chi-Quadrat-Tests vergleichen für jeden Teilnehmertyp jede Zeitperiode und jede Bedingung (sofern dies sinnvoll ist, z. B. Schüler, Bedingung 1, Zeitperiode 1 und Zeitperiode 2), sodass alle Analysen dieselbe Hypothese prüfen .

DrJay
quelle
2
Viele Menschen, die mehrere Vergleiche durchführen, planen, alle von vornherein durchzuführen . Sie tun dies, weil sie die Gesamtfehlerrate von Typ I steuern möchten. In manchen Situationen kann es sinnvoll sein, nicht mehrere Vergleiche zu korrigieren, aber es ist nicht nur eine Frage der Planung, alle von Anfang an durchzuführen.
Glen_b
3
Können Sie etwas mehr über die Studie, deren Daten und deren Analysen sagen? Entsprechen die> 15 allen möglichen Vergleichen oder nur einem kleinen Prozentsatz? Wie viele Daten haben sie? Wie plausibel ist es, dass die Hypothesen alle a priori waren? Sind sie alle von Bedeutung? Sind die Chi-Quadrat-Tests unabhängig voneinander? Berücksichtigen Sie auch einige der in @ peuhps Antwort aufgeworfenen Fragen.
gung - Wiedereinsetzung von Monica
4
Da "sie" wahrscheinlich daran interessiert sind, signifikante Ergebnisse zu erzielen, ist ihre Antwort selbstzweckmäßig. Daher müssen sie nachweisen, warum ihr Ansatz legitim ist, anstatt dass Sie nachweisen, dass er unzulässig ist. Jeder Versuch zu zeigen, dass mehrfache Vergleichskorrekturen vernachlässigt werden können, schlägt fehl, sobald die papierweite Falsch-Positiv-Rate berücksichtigt wird, und daher müssen "sie" entweder (unaufrichtig) jede Berücksichtigung dieses Problems vermeiden oder ein gutes Argument dafür liefern, warum es ist für das beabsichtigte Publikum nicht von Belang.
whuber
1
Ich wäre sehr versucht, mit einem Link zu diesem XKCD-Streifen zu antworten (der, wie Sie vielleicht bemerken, eine vollständig geplante Serie von mehreren Tests beinhaltet ...).
Ilmari Karonen

Antworten:

21

Dies ist meiner Meinung nach ein komplexes Problem, und ich möchte drei Kommentare zu dieser Situation abgeben.

Zunächst und allgemein würde ich mich mehr darauf konzentrieren, ob Sie einer konfirmatorischen Studie mit einer Reihe wohlgeformter Hypothesen gegenüberstehen, die in einem argumentativen Kontext definiert sind, oder einer erklärenden Studie, in der viele wahrscheinliche Indikatoren beobachtet werden, als ob sie geplant sind oder nicht (weil Sie dies können) einfach vorhaben, alle möglichen Vergleiche anzustellen).

Zweitens würde ich mich auch darauf konzentrieren, wie die resultierenden p-Werte dann diskutiert werden. Werden sie einzeln verwendet, um eine Reihe endgültiger Schlussfolgerungen zu liefern, oder werden sie gemeinsam als Beweise und Mangel an Beweisen diskutiert?

Abschließend möchte ich die Möglichkeit diskutieren, dass die> 15-Hypothese, die sich aus den> 15 separaten Chi-Quadrat-Tests ergibt, tatsächlich den Ausdruck einiger Hypothesen (möglicherweise einer einzigen) darstellt, die zusammengefasst werden können.

Ganz allgemein, unabhängig davon, ob Hypothesen vorgegeben sind oder nicht, hängt die Korrektur von Mehrfachvergleichen davon ab, was Sie in den Typ-I-Fehler einschließen. Wenn Sie MC nicht korrigieren, behalten Sie nur eine Fehlerratensteuerung nach Vergleichstyp I bei. Im Falle zahlreicher Vergleiche haben Sie eine hohe familienbezogene Typ-I-Fehlerrate und sind daher anfälliger für falsche Entdeckungen.

peuhp
quelle
8
(+1) Es kann erwähnenswert sein, dass die experimentelle Fehlerrate nicht durch die geplanten fünfzehn Einzelvergleiche gesteuert wird. Andererseits müssen mögliche Vergleiche über die fünfzehn hinaus, die im Protokoll nicht vorgesehen sind, bei der Mehrfachvergleichskorrektur nicht berücksichtigt werden.
Scortchi
@Scortchi Danke für deine Eingabe, aber ich verstehe nicht, was du meinst mit "Die experimentelle Fehlerrate wird nicht durch die geplanten fünfzehn Einzelvergleiche gesteuert"?
peuhp
1
Nur der grundlegende Punkt: Wenn Sie die Wahrscheinlichkeit kontrollieren möchten, dass bei all diesen Tests ein oder mehrere Fehler vom Typ I auftreten, müssen Sie ein Mehrfachvergleichsverfahren anwenden. Ich erwähne es nur, weil ich vorher in dieser Sache auf Verwirrung gestoßen bin.
Scortchi - Wiedereinsetzung von Monica
2
Beachten Sie, dass genau dieses Problem in einem sehr aktuellen Thread aufgetreten ist: Post-Hoc-Anwendung von Multiple Comparisons .
Michael R. Chernick
1
@Scortchi. Ok danke für diese Klarstellung und Eingabe, dies sollte ja in meiner Antwort deutlich angegeben werden. Wird dies hinzufügen.
peuhp
5

In Anbetracht Ihrer Aktualisierung des Designs würde ich vorschlagen, dass sie eine Art log-lineares Modell ausführen, um alle Daten auf einmal zu verwenden. Die Stück-Mahlzeit-Analysen, die sie durchgeführt haben, scheinen (a) ineffizient (b) unwissenschaftlich zu sein, da sie 15 Hypothesen prüfen, bei denen es sicherlich weniger echte Hypothesen gibt.

Ich bin kein Fan von Korrekturen für Multiplizität als bedingtem Reflex, aber in diesem Fall würde ich vorschlagen, dass sie korrigieren, wenn sie einen tieferen analytischen Ansatz ablehnen.

mdewey
quelle
1
k15
1
χ2
4

Wenn Sie das Wort "vorsätzlich" durch "geplant" ersetzen, kann dies dazu beitragen, das Argument der Autoren zu zerstreuen. Betrachten Sie zwei verschiedene statistische Analysen derselben Daten:

  1. Ein "vorsätzliches Verbrechen", bei dem jeder mögliche Hypothesentest von einem "statistischen kriminellen Vordenker" kombinatorisch im Voraus dargelegt wird. Es ist geplant, jeden systematisch auszuprobieren und den Test mit dem kleinsten p-Wert als "Schlüsselbefund" auszuwählen. in den Abschnitten Ergebnisse, Diskussion und Schlussfolgerung des Papiers und in der Tat auch den Titel zu fördern.
  2. Ein "Verbrechen der Leidenschaft", bei dem die ursprüngliche Absicht darin bestand, die Daten lediglich mit einer Hypothese zu konfrontieren, "nun ja ... eins führt zum anderen" und mehrere Ad-hoc- Hypothesentests "eben" in der Hitze der wissenschaftlichen Leidenschaft zu passieren lerne "etwas ... irgendetwas! " aus den Daten.

So oder so, es ist "Mord" - die Frage ist, ob es im ersten Grad oder im zweiten Grad ist. Offensichtlich ist der erste moralisch problematischer. Es klingt für mich, als wollten die Autoren hier behaupten, es sei kein Mord, weil er vorsätzlich war.

David C. Norris
quelle
4
Aber mehrfache Vergleiche sind kein Verbrechen, ob vorsätzlich oder nicht. P-Jagd ist.
Cliff AB
1

In diesem Artikel wird Ihre Frage direkt beantwortet: http://jrp.icaap.org/index.php/jrp/article/view/514/417

(Frane, AV, "Geplante Hypothesentests sind nicht unbedingt von der Multiplizitätsanpassung ausgenommen", Journal of Research Practice, 2015)

Bonferroni
quelle