Können Sie dieses Chi-Quadrat-Testergebnis reproduzieren?

7

Bei Skeptics.StackExchange wird in einer Antwort eine Studie zur elektromagnetischen Überempfindlichkeit zitiert:

Ich bin zweifelhaft in Bezug auf einige der verwendeten Statistiken und würde mich über Fachwissen bei der Überprüfung ihrer angemessenen Verwendung freuen.

Fig. 5a zeigt die Ergebnisse eines Subjekts, das versucht zu erkennen, wann ein Generator für elektromagnetische Felder eingeschaltet wurde.

Hier ist eine vereinfachte Version:

 Actual:   Yes  No
Detected:
  Yes       32  19
  No       261 274

Sie behaupten, einen Chi-Quadrat-Test verwendet zu haben und fanden Signifikanz (p <0,05, ohne anzugeben, was p ist.)

Die Häufigkeit der somatischen und Verhaltensreaktionen in Gegenwart und Abwesenheit des Feldes wurde unter Verwendung des Chi-Quadrat-Tests (2 × 2 Tabellen) oder der Freeman-Halton-Erweiterung des Fisher-Exaktwahrscheinlichkeitstests (2 × 3 Tabellen; Freeman & Halton, 1951).

Ich sehe mehrere Probleme.

  • Sie haben einige der Daten ausgeschlossen - siehe Tabelle 5b -, in denen sie das Gerät für längere Zeit ausgeschaltet haben. Ich kann die Rechtfertigung bei der Trennung dieser Daten nicht erkennen.

  • Sie scheinen zu behaupten, dass das Ergebnis statistisch signifikant ist, wenn das tatsächliche Gerät eingeschaltet war, aber nicht, wenn es nicht eingeschaltet war. (Ich kann das falsch verstehen; es ist nicht klar.) Das ist kein Ergebnis, das der Chi-Quadrat-Test liefern kann, oder?

  • Als ich versucht habe, diesen Test mit einem Online-Rechner zu reproduzieren, habe ich festgestellt, dass er statistisch nicht signifikant ist.

Dies ist meine eigentliche Frage: Habe ich Recht, wenn ich das sage?: Ein zweiseitiger Chi-Quadrat-Test mit Fisher's Exact Test ist der richtige Weg, um diese Daten zu analysieren, UND er ist statistisch NICHT signifikant.

Seltsames Denken
quelle
Werden die "erkannten" und "tatsächlichen" Variablen an derselben Einheit beobachtet? Wenn ja, dann würde ich sagen, dass dies ein Symmetrieproblem ist.
Momo
@Momo: Ich denke die Antwort ist ja. Es gab 600 Versuche. In 300 war das Gerät tatsächlich eingeschaltet, und in den anderen 300 war das Gerät tatsächlich ausgeschaltet. Die Testperson wurde gefragt, ob sie die elektromagnetische Strahlung erfassen könne, und antwortete mit Ja oder Nein. In 14 Fällen antwortete sie nicht und sie wurden ausgeschlossen. In 535 Fällen sagte sie Nein, was bedeutet, dass ihre Empfindlichkeit gering war (falls überhaupt vorhanden). Sie sind sich nicht sicher, wie dies zu einem Symmetrieproblem führt? Gibt es Links, die ich lesen könnte, um mehr zu erfahren?
Oddthinking
OK danke. Ich habe gerade festgestellt, dass das Symmetrieproblem ein Ausdruck zu sein scheint, der auf Englisch nicht verwendet wird. Tut mir leid. Damit meine ich, dass die Kreuzklassifikationen nicht von unabhängigen Einheiten abgeleitet sind, sondern dass dieselbe Einheit wiederholt abgefragt wurde und es sich daher um eine gepaarte oder wiederholte Messung handelt.
Momo
2
Für die Aufzeichnung: Es gab einen Brief an den Herausgeber bezüglich dieses Papiers. Es stellte einige der in Tabelle 3a (Experiment 1 und 2) verwendeten (post-hoc?) Schweregradklassifikationen in Frage, warnte vor Publikationsverzerrungsrisiken und der Notwendigkeit einer Replikation. Es hat sich nicht über die Daten in Tabelle 5 beschwert.
Oddthinking
2
Es könnte auch erwähnenswert sein, dass diese Tabelle am Rande des Auftretens von "signifikant" liegt: Wäre nur ein einziger Nachweis falsch klassifiziert worden, würde der Fisher-Test (der für die Verwendung geeignet ist) einen p-Wert von 10,9% ergeben. Wenn die Behauptung außergewöhnlich oder kontrovers ist, würde man viel stärkere Beweise als diese benötigen , um eine Schlussfolgerung einer positiven Assoziation zu akzeptieren.
whuber

Antworten:

3

Es scheint mir, dass drei Dinge mit der Schlussfolgerung falsch sind.

Erstens, wie @caracal sagte: Sie melden "Signifikanz" mit einem einseitigen Test, ohne zu sagen, dass sie dies tun. Ich denke, die meisten Leute empfehlen fast immer die Verwendung von zweiseitigen Tests. Natürlich ist es nicht in Ordnung, einen One-Tail-Test zu verwenden, ohne dies zu sagen.

Zweitens ist der Effekt winzig. Wenn es ein Signal gab, erkannte das Subjekt (es gab nur eines) es 11% der Zeit (32/293). Wenn kein Signal vorhanden war, erkannte sie in 6,5% der Fälle ein Signal. Dieser Unterschied scheint ziemlich gering zu sein. Und das Subjekt konnte das Signal 89% der Zeit nicht erkennen!

Drittens gab es, wie @oddthinking hervorhob, einige selektive Datenberichte, die nicht richtig erklärt oder begründet wurden (ich habe das Papier nicht sorgfältig gelesen, also wiederhole ich einfach, was im ursprünglichen Beitrag stand).

Harvey Motulsky
quelle
0

Ein Fisher-Exakttest auf der angegebenen Tabelle ergibt gemäß diesem Code

actual <- c(rep("Y", 32), rep("N", 19), rep("Y", 261), rep("N", 274))
det <- c(rep("Y", 51), rep("N", 535))
table(det,actual) 
fisher.test(det,actual)

ap = 0,08

Peter Flom
quelle
3
Würden Sie sagen, dass ein Fisher-Test für diese Kontingenztabelle geeignet ist?
Momo
2
p("yes"|yes)>p("yes"|no)
@caracal: Möchten Sie Ihre Argumentation ausarbeiten und daraus eine Antwort machen?
Oddthinking
@Oddthinking Entschuldigung, ich habe derzeit keine Zeit, das Papier zu überfliegen und über die für die Frage relevanten Fragen der Probenahme / des experimentellen Designs nachzudenken.
Caracal