Chi-Quadrat-Test für Verteilungsgleichheit: Wie viele Nullen toleriert er?

10

Ich vergleiche zwei Gruppen von Mutanten, von denen jede nur einen von 21 verschiedenen Phänotypen haben kann. Ich würde gerne sehen, ob die Verteilung dieser Ergebnisse auf zwei Gruppen ähnlich ist. Ich habe einen Online-Test gefunden , der den "Chi-Quadrat-Test für Verteilungsgleichheit" berechnet und mir einige plausible Ergebnisse liefert. Ich habe jedoch einige Nullen in dieser Tabelle. Kann ich in diesem Fall überhaupt Chi-Quadrat verwenden?

Hier ist die Tabelle mit zwei Gruppen und Zählungen bestimmter Phänotypen:

2 1
2 3
1 6
1 4
13 77
7 27
0 1
0 4
0 2
2 7
2 3
1 5
1 9
2 6
0 3
3 0
1 3
0 3
1 0
1 2
0 1
Membran
quelle
Der Tisch kam nicht richtig heraus. Jede ungerade Zahl ist eine Zählung aus Gruppe 1 und jede gerade Zahl ist die jeweilige Zählung aus Gruppe 2
Membran
Ich habe Ihre Frage neu formatiert. Ist die Tabelle jetzt korrekt?
Csgillespie

Antworten:

8

Heutzutage ist es durchaus machbar, Fischers "exakten" Test an einem solchen Tisch durchzuführen . Ich habe gerade p = 0,087 mit Stata erhalten (die tabi 2 1 \ 2 3 \ .... , exactAusführung dauerte 0,19 Sekunden).

BEARBEITEN nach dem Kommentar von chl unten (versucht, als Kommentar hinzuzufügen, kann aber nicht formatiert werden):

Es funktioniert in R 2.12.0 für mich, obwohl ich die Option 'Arbeitsbereich' über den Standardwert von 200000 erhöhen musste:

> fisher.test(x)
Error in fisher.test(x) : FEXACT error 7.
LDSTP is too small for this problem.
Try increasing the size of the workspace.
> system.time(result<-fisher.test(x, workspace = 400000))
   user  system elapsed 
   0.11    0.00    0.11 
> result$p.value
[1] 0.0866764

(Die Ausführungszeit ist etwas schneller als in Stata, aber das ist von zweifelhafter Relevanz angesichts der Zeit, die benötigt wird, um die Bedeutung der Fehlermeldung zu ermitteln, bei der "Arbeitsbereich" verwendet wird, um etwas anderes als die übliche Bedeutung von R zu bedeuten, obwohl Fisher.test ist Teil des Kernstatistikpakets von R.)

ein Stop
quelle
1
Interessant, abgestürzt Fisher-Test auf R.
chl
Kann nicht mehr stimmen, sorry. Es scheint, ich hatte die Woche nicht genug erhöht :)
Chl
Ist es nicht so, dass Fischers "exakter" Test tatsächlich eine etwas andere Frage anspricht: "... er wird verwendet, um die Bedeutung der Assoziation (Kontingenz) zwischen den beiden Arten der Klassifizierung zu untersuchen" (Wiki-Seite). In meinem Fall habe ich versucht, die Hypothese zu bestätigen (oder zu widerlegen), dass die Verteilung der Phänotypen zwischen zwei Gruppen ähnlich (gleich) ist. Als ich diesen Online-Test (siehe den ersten Beitrag) mit dem Namen "Chi-Quadrat-Test für Verteilungsgleichheit" fand, dachte ich, er sei genau für mein Problem ...
Membran
Wenn Sie der Meinung sind, dass die erwähnte Version des Fisher-Tests für den Vergleich zweier Verteilungen in Ordnung ist, kann sie auch zur Überprüfung der Gleichmäßigkeit der Verteilung verwendet werden (dh zu sagen, dass Phänotypen innerhalb einer Gruppe ungleichmäßig zwischen einer endlichen Anzahl möglicher Phänotypen verteilt wurden). ? Man kann dies sogar in Excel mit der CHITEST-Funktion tun, aber was ist, wenn ich eine ähnliche Verteilung wie oben habe und viele Phänotypen weniger als fünfmal beobachtet werden?
Membran
@Membran # 1: Es ist eine etwas andere Frage als die genauen Testbedingungen von Fisher für beide Sätze von Grenzsummen. Dies scheint mir jedoch eine akademische statistische Schönheit zu sein, und ich bin ein Statistiker in der Wissenschaft. (Übrigens, könnten Sie klarstellen, auf welches Wiki Sie sich beziehen?) @Membran # 2: Ich würde den bedingten exakten Test im Fall einer Einweg-Tabelle nicht als "exakten Fisher-Test" bezeichnen, aber ein solcher Test sollte möglich sein hätte für Einweg-Tabellen einfacher gedacht, aber ich kann derzeit keine Software zur Unterstützung finden und habe keine Zeit, die Berechnung ohne durchzuführen.
Onestop
5

Die üblichen Richtlinien sind, dass die erwartete Anzahl größer als 5 sein sollte, aber es kann etwas gelockert werden, wie im folgenden Artikel beschrieben:

Campbell, I, Chi-Quadrat- und Fisher-Irwin-Tests von Zwei-mal-Zwei-Tabellen mit Empfehlungen für kleine Stichproben , Statistics in Medicine (2007) 26 (19): 3661–3675.

Siehe auch Ian Campbells Homepage .

Beachten Sie, dass es in R immer die Möglichkeit gibt, den Wert mit einem Monte-Carlo-Ansatz ( ) zu berechnen , anstatt sich auf die asymptotische Verteilung zu verlassen.pchisq.test(..., sim=TRUE)

In Ihrem Fall scheinen etwa 80% der erwarteten Zahlen unter 5 und 40% unter 1 zu liegen. Wäre es sinnvoll, einige der beobachteten Phänotypen zu aggregieren?

chl
quelle
Vielen Dank für Vorschläge. Logischerweise ist es nicht ganz möglich, Phänotypen zusammenzuführen, da jeder von ihnen eine einzigartige Kombination von drei aufgezeichneten Parametern ist. Da jeder dieser Parameter infolge einer Mutation "hoch", "runter" oder "unverändert" bleiben kann, kann es 3 ^ 3 = 27 verschiedene Phänotypen geben. Im obigen Beispiel habe ich die Phänotypen entfernt, für die beide Gruppen "0" erzielten, sodass es nur 21 davon gab. Ich sehe die Prävalenz bestimmter Phänotypen, aber ich hätte gerne einen statistischen Beweis dafür, dass die Verteilung solcher Phänotypen in verschiedenen Gruppen von Mutanten ähnlich ist (oder nicht). Vielen Dank!
Membran
1
@Membran Aggregation muss nicht sinnvoll sein: Sie können die Behälter nach Belieben kombinieren. Ein subtiles Problem ist jedoch, dass die Post-Facto- Aggregation die p-Werte in Zweifel zieht; Die Aggregation sollte unabhängig von den Daten sein.
whuber