Gibt es angesichts der Leistungsfähigkeit von Computern heutzutage jemals einen Grund, einen Chi-Quadrat-Test anstelle von Fischers genauem Test durchzuführen?

86

In Anbetracht der Tatsache, dass Software die exakte Testberechnung nach Fisher heutzutage so einfach durchführen kann , gibt es einen Umstand, in dem der Chi-Quadrat-Test theoretisch oder praktisch dem exakten Test nach Fisher vorzuziehen ist?

Zu den Vorteilen des genauen Tests nach Fisher gehören:

  • Skalierung auf Kontingenztabellen größer als 2x2 (dh jede r x c- Tabelle)
  • gibt einen genauen p-Wert an
  • Es muss keine minimale erwartete Zellenzahl vorliegen, um gültig zu sein
pmgjones
quelle
10
Weil es gute alte Klassiker sind. Bald wird es ein exquisiter Jahrgang. Danach, wenn Menschen sich gegen Computer erheben, wird es seine zweite Jugend leben.
TTNPHNS
7
Haben Sie jemals versucht, die exakte Teststatistik von Fisher auf einer großen Tabelle zu berechnen? (Es dauert zu lange ...)
whuber
22
Zusätzlich zu den guten Kommentaren und Antworten, die Sie bereits erhalten haben, denke ich, ist die bessere Frage "Angesichts der Leistungsfähigkeit von Computern, warum nicht immer Simulationstests / Permutationstests durchführen?".
Peter Flom
1
@whuber Ich habe eine (proprietäre) Implementierung ohne (große Anzahl von) Tabellen in C ++ durchgeführt. Es werden Tausende von P-Werten für Zahlen mit bis zu 8 Stellen in Sekunden ausgeführt.
Michel de Ruiter
1
@Michel Ich meinte die Gesamtzahl der Zellen in der Tabelle. Die Berechnung ist für 2 x 2-Tabellen einfach, aber wenn die Tabellen größer werden, werden die Berechnungen mühsam.
whuber

Antworten:

61

χ2

χ2PN-1N


Aus R-help, 2009 :

Campbell, I. Chi-Quadrat- und Fisher-Irwin-Tests von zwei mal zwei Tabellen mit kleinen Stichprobenempfehlungen. Statistik in der Medizin 2007; 26 : 3661 & ndash; 3675. ( Zusammenfassung )

  • ... in der neuesten Ausgabe von Armitages Buch wird empfohlen, Kontinuitätsanpassungen niemals für Kontingenztabellen-Chi-Quadrat-Tests zu verwenden.

  • E. Pearson-Modifikation des Pearson-Chi-Quadrat-Tests, die sich vom Original um einen Faktor von (N-1) / N unterscheidet;

  • Cochran merkte an, dass die Zahl 5 in "erwartete Frequenz weniger als 5" willkürlich war;

  • Die Ergebnisse der veröffentlichten Studien können für Vergleichsstudien wie folgt zusammengefasst werden :

    1. Yates Chi-Quadrat-Test weist Fehlerraten vom Typ I auf, die unter dem Nennwert liegen, häufig unter dem halben Nennwert.

    2. Der Fisher-Irwin-Test weist Fehlerraten vom Typ I auf, die unter dem Nennwert liegen.

    3. K Pearsons Version des Chi-Quadrat-Tests weist Fehlerraten vom Typ I auf, die näher am Nominalwert liegen als der Chi-Quadrat-Test von Yate und der Fisher-Irwin-Test.

    4. Der 'N-1'-Chi-Quadrat-Test verhält sich wie die' N'-Version von K. Pearson, aber die Tendenz zu höheren Werten als den Nennwerten ist verringert;

    5. Der zweiseitige Fisher-Irwin-Test nach der Irwinschen Regel ist weniger konservativ als die Methode, mit der die einseitige Wahrscheinlichkeit verdoppelt wird.

    6. Der Mid-P-Fisher-Irwin-Test, bei dem die einseitige Wahrscheinlichkeit verdoppelt wird, ist besser als bei Standardversionen des Fisher-Irwin-Tests, und die Mid-P-Methode nach Irwins Regel ist noch besser, wenn tatsächliche Typ-I-Fehler näher an den Nennwerten liegen. ";

  • starke Unterstützung für den 'N-1'-Test, vorausgesetzt, die erwarteten Frequenzen überschreiten 1;

  • Fehler im Fisher-Test, der auf der Prämisse von Fisher beruhte, dass marginale Summen keine nützlichen Informationen enthalten;

  • Demonstration ihrer nützlichen Informationen in sehr kleinen Stichprobengrößen;

  • Yates Kontinuitätsanpassung von N / 2 ist eine große Überkorrektur und ungeeignet.

  • Gegenargumente bestehen für die Verwendung von Randomisierungstests in randomisierten Studien;

  • Berechnungen der schlimmsten Fälle;

  • allgemeine Empfehlung : Verwenden Sie den 'N-1'-Chi-Quadrat-Test, wenn alle erwarteten Frequenzen mindestens 1 sind, andernfalls verwenden Sie den Fisher-Irwin-Test nach der Irwin-Regel für zweiseitige Tests, wobei die Tabellen entweder vom Schwanz aus als wahrscheinlich oder von weniger betrachtet werden. als das beobachtet; siehe Brief an den Herausgeber von Antonio Andres und Antwort des Autors in 27: 1791-1796; 2008.


Crans GG, Shuster JJ. Wie konservativ ist Fischers exakter Test? Eine quantitative Auswertung des Zwei-Stichproben-Vergleichs-Binomialversuchs. Statistik in der Medizin 2008; 27 : 3598 & ndash; 3611. ( Zusammenfassung )

  • ... das erste Papier, das die Konservativität des Fischertests wirklich quantifiziert;

  • "Die Testgröße von FET war für fast alle Probengrößen vor 50 kleiner als 0,035 und näherte sich selbst für Probengrößen über 100 nicht 0,05.";

  • Konservativität "exakter" Methoden;

  • siehe Stat in Med 28 : 173-179, 2009 für eine unbeantwortete Kritik


2×2

  • P

  • Wert von bedingungslosen Tests;

  • siehe Brief an den Herausgeber 30: 890-891; 2011

Frank Harrell
quelle
1
Können Sie vorschlagen, wie die (N-1) / N-Korrektur angewendet werden soll? Gibt es Online-Rechner, die diese Korrektur enthalten? Gibt es eine einfache Möglichkeit, die Ergebnisse des Chi-Quadrat-Tests manuell anzupassen, um diese Korrektur selbst vorzunehmen?
DW
Eine der Referenzen, die ich oben aufgeführt habe, ist Ihre beste Wahl.
Frank Harrell
1
χ2 χ2
2
Etwas als "genau" zu bezeichnen, macht es nicht so. Sehen Sie sich die wunderbare Erklärung unten von @suncoolsu an, die Sie verpasst haben müssen (Sie haben auch alle Erklärungen oben verpasst). Der Pearson-Test ist noch genauer, als Pearson angenommen hat. Siehe beispielsweise citeulike.org/user/harrelfe/article/13265687 und citeulike.org/user/harrelfe/article/13263676 . Fischers "exakter" Test ist nur insofern genau, als der wahre Fehler vom Typ I nicht größer ist als behauptet. Es stellt sich jedoch heraus, dass es kleiner ist als behauptet, so dass der Typ-II-Fehler höher ist, was weniger Leistung bedeutet.
Frank Harrell
Ich kenne die Bedeutung von Genauigkeit. Der genaue Punkt, den ich bei ungenauen Tests nicht mag, ist die Möglichkeit, dass der Fehler vom Typ I höher als der Nennpegel ist. Aber du hast recht, ich habe deine und die andere Antwort falsch verstanden (beide sind großartig)
Stéphane Laurent
47

Das ist eine gute Frage.

Der exakte Test von Fisher ist eines der großartigen Beispiele für die clevere Verwendung des experimentellen Designs durch Fisher , zusammen mit der Konditionierung von Daten (im Grunde Tabellen mit den beobachteten Zeilen- und Randsummen) und seinem Einfallsreichtum beim Auffinden von Wahrscheinlichkeitsverteilungen (obwohl dies nicht das beste Beispiel ist) , ein besseres Beispiel finden Sie hier ). Die Verwendung von Computern zur Berechnung "genauer" p-Werte hat definitiv dazu beigetragen, genaue Antworten zu erhalten.

Es ist jedoch schwierig, die Annahmen von Fischers genauem Test in der Praxis zu rechtfertigen. Denn das sogenannte "Exakte" ergibt sich aus der Tatsache, dass im "Tee-Verkostungs-Experiment" oder im Fall der 2x2-Kontingenztabellen die Zeilensumme und die Spaltensumme, dh die Grenzsummen, konstruktionsbedingt festgelegt sind. Diese Annahme ist in der Praxis selten gerechtfertigt. Nizza Referenzen finden Sie hier .

Der Name "genau" lässt vermuten, dass die von diesem Test angegebenen p-Werte genau sind, was in den meisten Fällen aus diesen Gründen leider nicht korrekt ist

  1. Wenn die Ränder nicht konstruktiv festgelegt sind (was in der Praxis fast immer vorkommt), sind die p-Werte konservativ.
  2. Da der Test eine diskrete Wahrscheinlichkeitsverteilung verwendet (insbesondere eine hypergeometrische Verteilung), ist es für bestimmte Grenzwerte unmöglich, die "genauen Nullwahrscheinlichkeiten", dh den p-Wert, zu berechnen.

In den meisten praktischen Fällen sollte die Verwendung eines Likelihood-Ratio-Tests oder Chi-Quadrat-Tests nicht zu sehr unterschiedlichen Antworten (p-Wert) führen als ein genauer Fisher-Test. Ja, wenn die Ränder festgelegt sind, ist der exakte Test von Fisher die bessere Wahl, aber dies wird selten vorkommen. Daher wird für Konsistenzprüfungen immer die Verwendung des Chi-Quadrat-Tests des Wahrscheinlichkeitsverhältnisses empfohlen.

Ähnliche Ideen gelten, wenn der genaue Fisher-Test auf eine beliebige Tabelle verallgemeinert wird, was im Grunde der Berechnung multivariater hypergeometrischer Wahrscheinlichkeiten entspricht. Daher muss man immer versuchen, Chi-Quadrat- und Likelihood-Ratio-Verteilungs-basierte p-Werte zusätzlich zu "exakten" p-Werten zu berechnen.

suncoolsu
quelle