Wie führe ich mehrere Post-hoc-Chi-Quadrat-Tests an einem 2 x 3-Tisch durch?

9

Mein Datensatz umfasst entweder die Gesamtmortalität oder das Überleben eines Organismus an drei Standorttypen: Inshore, Midchannel und Offshore. Die Zahlen in der folgenden Tabelle geben die Anzahl der Standorte an.

              100% Mortality            100% Survival
Inshore             30                       31 
Midchannel          10                       20 
Offshore             1                       10

Ich würde gerne wissen, ob die Anzahl der Standorte, an denen 100% Mortalität aufgetreten ist, je nach Standorttyp signifikant ist. Wenn ich ein 2 x 3 Chi-Quadrat verwende, erhalte ich ein signifikantes Ergebnis. Gibt es einen post-hoc paarweisen Vergleich, den ich durchführen kann, oder sollte ich tatsächlich eine logistische ANOVA oder Regression mit Binomialverteilung verwenden? Vielen Dank!

chl
quelle

Antworten:

7

Eine Kontingenztabelle sollte alle sich gegenseitig ausschließenden Kategorien auf beiden Achsen enthalten. Inshore / Midchannel / Offshore sehen gut aus. Wenn "weniger als 100% Mortalität" in dieser biologischen Umgebung nicht "100% Überleben" bedeutet, müssen Sie möglicherweise Tabellen erstellen, die alle beobachteten Fälle berücksichtigen, oder erklären, warum Sie Ihre Analyse auf das Äußerste beschränken Enden der Probe.

Da 100% Überleben 0% Mortalität bedeutet, können Sie eine Tabelle mit den Spalten 100% = Mortalität / 100%> Mortalität> 0% / Mortalität = 0% erstellen. In diesem Fall würden Sie die Prozentsätze nicht mehr vergleichen, sondern die ordinalen Mortalitätsmaße über drei Standorttypkategorien hinweg vergleichen. (Was ist mit der Verwendung der ursprünglichen Prozentwerte anstelle von Kategorien?) Hier kann eine Version des Kruskal-Wallis-Tests geeignet sein, die Bindungen angemessen berücksichtigt (möglicherweise ein Permutationstest).

Für den Kruskal-Wallis-Test gibt es etablierte Post-hoc-Tests: 1 , 2, 3 . (Ein Resampling-Ansatz kann helfen, Probleme zu lösen.)

Die logistische Regression und die binomiale Regression sind möglicherweise sogar noch besser, da sie nicht nur p-Werte liefern, sondern auch nützliche Schätzungen und Konfidenzintervalle der Effektgrößen. Für die Einrichtung dieser Modelle wären jedoch weitere Einzelheiten zu den Standorten 100%> Mortalität> 0% erforderlich.

GaBorgulya
quelle
4

Ich gehe davon aus, dass "100% Überleben" bedeutet, dass Ihre Websites nur einen einzigen Organismus enthielten. 30 bedeutet also, dass 30 Organismen gestorben sind, und 31 bedeutet, dass 31 Organismen nicht gestorben sind. Basierend darauf sollte das Chi-Quadrat in Ordnung sein, aber es wird nur sagen, welche Hypothese von den Daten nicht unterstützt wird - es wird Ihnen nicht sagen, ob zwei vernünftige Hypothesen besser sind oder nicht. Ich präsentiere eine Wahrscheinlichkeitsanalyse, die diese Informationen extrahiert - sie stimmt mit dem Chi-Quadrat-Test überein, bietet Ihnen jedoch mehr Informationen als der Chi-Quadrat-Test und eine bessere Möglichkeit, die Ergebnisse darzustellen.

Das Modell ist ein Bernouli-Modell für den Indikator "Tod", ( bezeichnet die Zelle der Tabelle und bezeichnet die einzelne Einheit innerhalb die Zelle).i 2 × 3 jYijBin(1,θij)i2×3j

Dem Chi-Quadrat-Test liegen zwei globale Annahmen zugrunde:

  1. Innerhalb einer gegebenen Zelle der Tabelle sind die alle gleich, θ i j = θ i k = θ iθichjθichj=θichk=θich
  2. die sind statistisch unabhängig, wenn . Dies bedeutet, dass die Wahrscheinlichkeitsparameter alles über - alle anderen Informationen sind irrelevant, wenn Sie θ i Y i j θ iY.ichjθichY.ichjθich

Bezeichne als die Summe von (also ) und sei die Gruppengröße (also ). Jetzt müssen wir eine Hypothese testen: Y i j X 1 = 30 , X 2 = 10 , X 3 = 1 N i N 1 = 61 , N 2 = 30 , N 3 = 11X.ichY.ichjX.1=30,X.2=10,X.3=1N.ichN.1=61,N.2=30,N.3=11

H.EIN::θ1=θ2,θ1=θ3,θ2=θ3

Aber was sind die Alternativen? Ich würde sagen, die anderen möglichen Kombinationen von gleich oder ungleich.

H B 2 : θ 1 & ne; θ 2 , & thgr; 1 = θ 3 , θ 2 & ne; θ 3 H B 3 : θ 1 = θ 2 , θ 1θ 3 , θ 2

H.B.1::θ1θ2,θ1θ3,θ2=θ3
H.B.2::θ1θ2,θ1=θ3,θ2θ3
H C : θ 1θ 2 , θ 1θ 3 , θ 2θ 3
H.B.3::θ1=θ2,θ1θ3,θ2θ3
H.C.::θ1θ2,θ1θ3,θ2θ3

Eine dieser Hypothesen muss angesichts der oben genannten "globalen" Annahmen zutreffen. Beachten Sie jedoch, dass keiner dieser Werte bestimmte Werte für die Raten angibt - daher müssen sie heraus integriert werden. Tatsache, dass wahr ist, haben wir nur einen Parameter (weil alle gleich sind), und der einheitliche Prior ist eine konservative Wahl. Bezeichnen Sie dies und die globalen Annahmen mit . also haben wir: I 0H.EINich0

=

P.(X.1,X.2,X.3|N.1,N.2,N.3,H.EIN,ich0)=01P.(X.1,X.2,X.3,θ|N.1,N.2,N.3,H.EIN,ich0)dθ
= ( N 1
=(N.1X.1)(N.2X.2)(N.3X.3)01θX.1+X.2+X.3(1- -θ)N.1+N.2+N.3- -X.1- -X.2- -X.3dθ
=(N.1X.1)(N.2X.2)(N.3X.3)(N.1+N.2+N.3+1)(N.1+N.2+N.3X.1+X.2+X.3)

Welches ist eine hypergeometrische Verteilung geteilt durch eine Konstante. In ähnlicher Weise haben wir für : P ( X 1 , X 2 , X 3 | N 1 , N 2 , N 3 , H B 1 , I 0 ) = 1 0 P ( X 1 , X 2 , X 3 , θ 1 θ 2 | N 1 , N 2 , N 3 , H B.H.B.1

P.(X.1,X.2,X.3|N.1,N.2,N.3,H.B.1,ich0)=01P.(X.1,X.2,X.3,θ1θ2|N.1,N.2,N.3,H.B.1,ich0)dθ1dθ2
=(N.2X.2)(N.3X.3)(N.1+1)(N.2+N.3+1)(N.2+N.3X.2+X.3)

Sie können das Muster für die anderen sehen. Wir können die Chancen für berechnen, indem wir einfach die beiden obigen Ausdrücke teilen. Die Antwort ist ungefähr , was bedeutet, dass die Daten über um ungefähr den Faktor - ziemlich schwache Beweise für gleiche Raten. Die anderen Wahrscheinlichkeiten sind unten angegeben.H.EINvsH.B.14H.EINH.B.14

H.ypÖthesichsprÖbeinbichlichty(H.EIN|D.)0,018982265(H.B.1|D.)0,004790669(H.B.2|D.)0,051620022(H.B.3|D.)0,484155874(H.C.|D.)0,440451171

Dies zeigt starke Beweise gegen gleiche Raten, aber keine starken Beweise für eine defintie Alternative. Es scheint starke Beweise dafür zu geben, dass sich die "Offshore" -Rate von den beiden anderen Raten unterscheidet, aber nicht schlüssige Beweise dafür, ob sich "Inshore" - und "Mid-Channel" -Raten unterscheiden. Dies ist, was der Chi-Quadrat-Test Ihnen nicht sagt - er sagt Ihnen nur, dass Hypothese "Mist" ist, aber nicht, welche Alternative an seine Stelle gesetzt werden sollEIN

Wahrscheinlichkeitslogik
quelle
1

Hier ist der Code zum Durchführen der Chi-Quadrat-Tests sowie zum Generieren einer Vielzahl von Teststatistiken. Statistische Assoziationstests der Tabellenränder sind hier jedoch nutzlos; Die Antwort liegt auf der Hand. Niemand führt einen statistischen Test durch, um festzustellen, ob der Sommer heißer als der Winter ist.

Chompy<-matrix(c(30,10,1,31,20,10), 3, 2)
Chompy
chisq.test(Chompy)
chisq.test(Chompy, simulate.p.value = TRUE, B = 10000)
chompy2<-data.frame(matrix(c(30,10,1,31,20,10,1,2,1,2,1,2,1,2,3,1,2,3), 6,3))
chompy2
chompy2$X2<-factor(chompy2$X2) 
chompy2$X3<-factor(chompy2$X3)
summary(fit1<-glm(X1~X2+X3, data=chompy2, family=poisson))
summary(fit2<-glm(X1~X2*X3, data=chompy2, family=poisson)) #oversaturated
summary(fit3<-glm(X1~1, data=chompy2, family=poisson)) #null
anova(fit3,fit1)
library(lmtest)
waldtest(fit1)
waldtest(fit2) #oversaturated
kruskal.test(X1~X2+X3, data=chompy2)
kruskal.test(X1~X2*X3, data=chompy2)
Patrick McCann
quelle
3
Für den Leser (und das OP) wäre es interessant, wenn Sie Details zu der unterschiedlichen R-Syntax (und den zugrunde liegenden Tests) angeben könnten, die Sie angegeben haben, und insbesondere, wie sich ein Kruskal-Wallis-Test im Vergleich zu einem logarithmisch linearen Modell verhält.
Chl
Sie können dies sehen, indem Sie den Code kopieren und in die R-Konsole einfügen.
Patrick McCann
1
Sicher. Antworten kommen natürlich von selbst, indem sie den Code ausführen.
Chl
0

Ich glaube, Sie könnten die "gleichzeitigen Konfidenzintervalle" für mehrere Vergleiche verwenden. Die Referenz ist Agresti et al. 2008 Gleichzeitige Konfidenzintervalle zum Vergleich von Binomialparametern. Biometrics 64 1270-1275.

Den entsprechenden R-Code finden Sie unter http://www.stat.ufl.edu/~aa/cda/software.html

Tu.2
quelle