Berechnung der Kappa-Varianz nach Cohen (und Standardfehler)

44

Die Kappa- Statistik ( ) wurde 1960 von Cohen [1] eingeführt, um die Übereinstimmung zwischen zwei Bewertern zu messen. Seine Varianz war jedoch seit geraumer Zeit eine Quelle von Widersprüchen.κ

Meine Frage ist, welches die beste Varianzberechnung für große Stichproben ist. Ich neige dazu zu glauben, dass das von Fleiss getestete und verifizierte [2] die richtige Wahl wäre, aber dies scheint nicht das einzige veröffentlichte zu sein, das richtig zu sein scheint (und in der gesamten neueren Literatur verwendet wird).

Im Moment habe ich zwei konkrete Möglichkeiten, um die asymptotische große Stichprobenvarianz zu berechnen:

  • Die korrigierte Methode von Fleiss, Cohen und Everitt [2];
  • Die Delta-Methode, die in dem Buch von Colgaton, 2009 [4] (Seite 106) zu finden ist.

Um einige dieser Verwirrungen zu veranschaulichen, hier ein Zitat von Fleiss, Cohen und Everitt [2], Hervorhebung von mir:

Viele menschliche Bemühungen wurden mit wiederholten Misserfolgen verflucht, bevor der endgültige Erfolg erreicht wurde. Die Skalierung des Mount Everest ist ein Beispiel. Die Entdeckung der Nordwestpassage ist eine Sekunde. Die Herleitung eines korrekten Standardfehlers für Kappa ist ein Drittel .

Also, hier ist eine kleine Zusammenfassung dessen, was passiert ist:

  • 1960: Cohen veröffentlicht seine Arbeit "Ein Übereinstimmungskoeffizient für nominale Skalen" [1], in der er sein zufallskorrigiertes Maß für die Übereinstimmung zwischen zwei Bewertern mit dem Namen vorstellt . Er veröffentlicht jedoch falsche Formeln für die Varianzberechnungen.κ
  • 1968: Everitt versucht, sie zu korrigieren, aber auch seine Formeln waren falsch.
  • 1969: Fleiss, Cohen und Everitt veröffentlichen die korrekten Formeln in der Veröffentlichung "Large Sample Standard Errors Of Kappa and Weighted Kappa" [2].
  • 1971: Fleiss veröffentlicht unter demselben Namen eine weitere Statistik (jedoch eine andere) mit falschen Formeln für die Abweichungen.κ
  • 1979: Fleiss Nee und Landis veröffentlichen die korrigierten Formeln für Fleiss ' .κ

Betrachten Sie zunächst die folgende Notation. Diese Notation impliziert, dass der Summationsoperator auf alle Elemente in der Dimension angewendet werden sollte, über die der Punkt platziert wird:

   pi.=j=1kpij    p.j=i=1kpij

Nun kann man Kappa wie folgt berechnen:

   κ^=popc1pe

In welchem

   po=i=1kpii ist die beobachtete Übereinstimmung, und

   pc=i=1kpi.p.i ist die Zufallsvereinbarung.

Bisher ist die korrekte Varianzberechnung für Cohen's gegeben durch:κ

   var^(κ^)=1N(1pc)4{i=1kpii[(1po)(p.i+pi.)(1po)]2   +(1po)2i=1kj=1ijkpij(p.i+pj.)2(popc2pc+po)2}

und unter der Nullhypothese ist gegeben durch:

   var^(κ^)=1N(1pc)2{i=1kp.ipi.[1(p.i+pi.)2]+i=1kj=1,ijkp.ipj.(p.i+pj.)2pc2}

Die Congalton-Methode scheint auf der Delta-Methode zur Ermittlung von Varianzen zu beruhen (Agresti, 1990; Agresti, 2002). Ich bin mir jedoch nicht sicher, was die Delta-Methode ist oder warum sie angewendet werden muss. Die Varianz nach dieser Methode ist gegeben durch:κ

   var^(κ^)=1n{θ1(1θ1)(1θ2)2+2(1θ1)(2θ1θ2θ3)(1θ2)3+(1θ1)2(θ44θ22)(1θ2)4}

in welchem

   θ1=1ni=1knii

   θ2=1n2i=1kni+n+i

   θ3=1n2i=1knii(ni++n+i)

   θ4=1n3i=1kj=1knij(nj++n+i)2

(Congalton verwendet ein anstelle eines , Aber es scheint dasselbe zu bedeuten. Außerdem gehe ich davon aus, dass eine Zählmatrix sein sollte, dh die Verwirrungsmatrix, bevor sie durch die Anzahl der Stichproben dividiert wird verwandt mit der Formel )+.nijpij=nijsamples

Ein anderer seltsamer Teil ist, dass Colgatons Buch das Originalpapier von Cohen zu zitieren scheint, aber die von Fleiss et al. Veröffentlichten Korrekturen der Kappa-Varianz nicht zu zitieren scheint, nicht bevor er sich mit gewichtetem Kappa befasst. Vielleicht wurde seine erste Veröffentlichung geschrieben, als die wahre Formel für Kappa noch in Unordnung war?

Kann jemand erklären, warum diese Unterschiede? Oder warum sollte jemand die Delta-Methodenvarianz anstelle der korrigierten Version von Fleiss verwenden?

[1]: Joseph L. Fleiss; Cohen, Jacob; Everitt, BS; Große Stichproben-Standardfehler von Kappa und gewichtetem Kappa. Psychological Bulletin, Band 72 (5), November 1969, 323-327. doi: 10.1037 / h0028106

[2]: Cohen, Jacob (1960). Ein Übereinstimmungskoeffizient für nominale Skalen. Pädagogische und psychologische Messung 20 (1): 37–46. DOI: 10.1177 / 001316446002000104.

[3]: Alan Agresti, Categorical Data Analysis, 2. Auflage. John Wiley and Sons, 2002.

[4]: Russell G. Congalton und Green, K .; Bewertung der Genauigkeit von fernerkundeten Daten: Prinzipien und Praktiken, 2. Auflage. 2009.

Cesar
quelle
Einige deiner Klammern sind deaktiviert. Kannst du sie bitte korrigieren? Möglicherweise möchten Sie die verschachtelten Klammern auch als {[(x + y) ^ z + a] ^ b - c} formatieren, um sie besser lesbar zu machen.
StasK
Geben Sie auch selbst und alternative äquivalente Formulierungen an, falls vorhanden. Abhängig von den spezifischen alternativen Formulierungen können die Varianzausdrücke leichter zu bekommen sein. (Ich denke an den Gini-Index, für den es ungefähr fünf Formulierungen für ID-Daten gibt, die völlig unterschiedliche Varianzschätzer für komplexe Umfragedaten implizieren.)κ
StasK
Danke für die Rückmeldung. Ich habe die Formeln korrigiert und hinzugefügt, wie Kappa berechnet wird. Die Kappa-Formulierung scheint in der Literatur konsistent zu sein, nur die Varianz nicht.
Cesar
1
Übrigens ist mir gerade aufgefallen, dass es sich bei Colgatons Buch anscheinend um einen Druckfehler handelt: Er definiert , aber dieses kommt aus dem Nichts. Ich nehme an, es sollte , sonst bin ich mir nicht sicher, ob es viel Sinn macht. pc=i=1kpi+p+jjpc=i=1kpi+p+i
Cesar
2
Ich kann Ihnen zumindest mit diesem Teil
helfen

Antworten:

7

Ich weiß nicht, welche der beiden Methoden zur Berechnung der Varianz zu bevorzugen ist, aber ich kann Ihnen eine dritte, praktische und nützliche Methode zur Berechnung des Vertrauens / der glaubwürdigen Intervalle unter Verwendung der Bayes'schen Schätzung von Cohens Kappa anbieten.

Der unten stehende R- und JAGS- Code generiert MCMC-Beispiele aus der posterioren Verteilung der glaubwürdigen Werte von Kappa unter Berücksichtigung der Daten.

library(rjags)
library(coda)
library(psych)

# Creating some mock data
rater1 <- c(1, 2, 3, 1, 1, 2, 1, 1, 3, 1, 2, 3, 3, 2, 3) 
rater2 <- c(1, 2, 2, 1, 2, 2, 3, 1, 3, 1, 2, 3, 2, 1, 1) 
agreement <- rater1 == rater2
n_categories <- 3
n_ratings <- 15

# The JAGS model definition, should work in WinBugs with minimal modification
kohen_model_string <- "model {
  kappa <- (p_agreement - chance_agreement) / (1 - chance_agreement)
  chance_agreement <- sum(p1 * p2)

  for(i in 1:n_ratings) {
    rater1[i] ~ dcat(p1)
    rater2[i] ~ dcat(p2)
    agreement[i] ~ dbern(p_agreement)
  }

  # Uniform priors on all parameters
  p1 ~ ddirch(alpha)
  p2 ~ ddirch(alpha)
  p_agreement ~ dbeta(1, 1)
  for(cat_i in 1:n_categories) {
    alpha[cat_i] <- 1
  }
}"

# Running the model
kohen_model <- jags.model(file = textConnection(kohen_model_string),
                 data = list(rater1 = rater1, rater2 = rater2,
                   agreement = agreement, n_categories = n_categories,
                   n_ratings = n_ratings),
                 n.chains= 1, n.adapt= 1000)

update(kohen_model, 10000)
mcmc_samples <- coda.samples(kohen_model, variable.names="kappa", n.iter=20000)

Das folgende Diagramm zeigt ein Dichtediagramm der MCMC-Proben aus der posterioren Verteilung von Kappa.

Hintere Kappa-Dichte

Mit den MCMC-Stichproben können wir nun den Medianwert als Schätzung von Kappa verwenden und die 2,5% - und 97,5% -Quantile als 95% -Vertrauens- / Glaubwürdigkeitsintervall verwenden.

summary(mcmc_samples)$quantiles
##      2.5%        25%        50%        75%      97.5% 
## 0.01688361 0.26103573 0.38753814 0.50757431 0.70288890 

Vergleichen Sie dies mit den nach Fleiss, Cohen und Everitt berechneten "klassischen" Schätzungen:

cohen.kappa(cbind(rater1, rater2), alpha=0.05)
##                  lower estimate upper
## unweighted kappa  0.041     0.40  0.76

Persönlich würde ich das Bayes'sche Konfidenzintervall dem klassischen Konfidenzintervall vorziehen, zumal ich glaube, dass das Bayes'sche Konfidenzintervall bessere Eigenschaften für kleine Stichproben hat. Ein häufiges Problem bei Bayes-Analysen besteht darin, dass Sie vorhergehende Vorurteile bezüglich der Verteilung der Parameter angeben müssen. Glücklicherweise ist es in diesem Fall einfach, "objektive" Prioritäten zu konstruieren, indem einfach gleichmäßige Verteilungen über alle Parameter vorgenommen werden. Dies sollte das Ergebnis des Bayes'schen Modells einer "klassischen" Berechnung des Kappa-Koeffizienten sehr ähnlich machen.

Verweise

Sanjib Basu, Mousumi Banerjee und Ananda Sen (2000). Bayesianische Inferenz für Kappa aus Einzel- und Mehrfachstudien. Biometrics . 56, Nr. 2 (Juni 2000), S. 577-582

Rasmus Bååth
quelle
Wissen Sie, ob es eine Erweiterung für mehr als zwei Bewerter gibt?
Fomite