Warum unterscheiden sich die Quotenverhältnisse von der Formel und dem Fisher-Test von R? Welches sollte man wählen?

13

Im folgenden Beispiel

> m = matrix(c(3, 6, 5, 6), nrow=2)
> m
     [,1] [,2]
[1,]    3    5
[2,]    6    6
> (OR = (3/6)/(5/6))    #1
[1] 0.6
> fisher.test(m)        #2

    Fisher's Exact Test for Count Data

data:  m 
p-value = 0.6699
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval:
 0.06390055 5.07793271 
sample estimates:
odds ratio 
 0.6155891 

Ich habe das Odds Ratio (# 1) "manuell" berechnet, 0,600; dann (# 2) als eine der Ausgaben des exakten Fisher-Tests 0,616.

Warum habe ich nicht den gleichen Wert erhalten?

Warum gibt es verschiedene Möglichkeiten zur Berechnung des Odds-Ratio und wie wählt man die am besten geeignete aus?

winerd
quelle

Antworten:

10

Von der Hilfeseite für fisher.test():

Beachten Sie, dass anstelle der bedingungslosen MLE (Sample Odds Ratio) die bedingte Maximum Likelihood Estimation (MLE) verwendet wird.

zx8754
quelle
3

Um die Diskussion hier zu ergänzen, ist es nützlich zu fragen, was genau in dieser "bedingten" Wahrscheinlichkeit bedingt ist. Der Fisher-Test unterscheidet sich von anderen kategorialen Analysen darin, dass alle Ränder der Tabelle als fest betrachtet werden, während das logistische Regressionsmodell (und der entsprechende Pearson-Chi-Quadrat-Test, der der Bewertungstest des logistischen Modells ist) nur einen Rand als fest betrachten .

Der Fisher-Test betrachtet dann die hypergeometrische Verteilung als ein Wahrscheinlichkeitsmodell für die in jeder der 4 Zellen beobachteten Zählungen. Die hypergeometrische Verteilung hat die Besonderheit, dass Sie häufig einen anderen OP als maximale Wahrscheinlichkeitsschätzung erhalten, da die Verteilung des Ursprungsquotenverhältnisses nicht kontinuierlich ist.

AdamO
quelle
2
Ich glaube nicht, dass Ihre Antwort klar macht, wie diese besondere Wahrscheinlichkeit entstehen könnte. Wenn Sie den Datenerzeugungsprozess beispielsweise mit einem Produkt-Binom modellieren, erhalten Sie eine andere Wahrscheinlichkeit (& MLE), die von den Grenzsummen abhängig ist, als wenn Sie ihn mit der nicht zentralen hypergeometrischen Verteilung von Wallenius modellieren - dem Grenzwert Summen gelten in beiden Fällen als "fest".
Scortchi - Monica wieder einsetzen
1

Um Ihre zweite Frage zu beantworten, Biostate sind nicht meine Stärke, aber ich glaube, der Grund für Statistiken mit mehreren Quotenverhältnissen besteht darin, das Stichprobendesign und das Design von Experimenten zu berücksichtigen.

Ich habe hier drei Referenzen gefunden, die Ihnen ein wenig Verständnis dafür geben, warum es einen Unterschied zwischen bedingtem MLE und bedingungslosem Quotenverhältnis sowie anderen Typen gibt.

  1. Punkt- und Intervallschätzung des gemeinsamen Quotenverhältnisses in der Kombination von 2 × 2 Tabellen mit festen Rändern

  2. Die Auswirkung der Verzerrung auf Schätzer des relativen Risikos für paarweise und geschichtete Proben

  3. Eine vergleichende Studie zur bedingten Schätzung der maximalen Wahrscheinlichkeit eines gemeinsamen Quotenverhältnisses

Jon
quelle
3
Es wäre nützlich, zumindest ein wenig zusammenzufassen, was diese Referenzen zu sagen haben.
Scortchi - Monica wieder einsetzen
@ Scortchi, stimmte zu. Ich war mit der Arbeit beschäftigt und hatte nur die Gelegenheit, die ersten ein oder zwei Seiten zu lesen. Ich werde an diesem Wochenende jeweils eine Zusammenfassung hinzufügen.
Jon
@ Jon Wenn Sie könnten, wäre es nützlich, diese kurze Zusammenfassung hinzuzufügen
Glen_b -Reinstate Monica
@ Jon Ich habe nur eine Frage gestellt. Es war bli, der 4 Jahre nachdem ich meine ursprüngliche Frage gestellt hatte, eine zweite Frage hinzufügte. Ich kehre Blis nervige Bearbeitung nicht um, als Sie auf die zweite Frage verwiesen haben, aber ich bin mir nicht sicher, wie ich eine Antwort mehr akzeptieren soll.
Winerd