Kann man Cohens Kappa nur für zwei Urteile verwenden?

Ich benutze Cohens Kappa , um die Übereinstimmung zwischen zwei Richtern zu berechnen.

Es wird berechnet als:

$\frac{P(A) - P(E)}{1 - P(E)}$

wobei der Anteil der Übereinstimmung und die Wahrscheinlichkeit einer zufälligen Übereinstimmung ist. $P(A)$ $P(E)$

Für den folgenden Datensatz erhalte ich nun die erwarteten Ergebnisse:

User A judgements: 
  - 1, true
  - 2, false
User B judgements: 
  - 1, false
  - 2, false
Proportion agreed: 0.5
Agreement by chance: 0.625
Kappa for User A and B: -0.3333333333333333

Wir können sehen, dass beide Richter nicht sehr gut übereinstimmten. In dem folgenden Fall, in dem beide Richter ein Kriterium bewerten, wird Kappa mit Null bewertet:

User A judgements: 
  - 1, false
User B judgements: 
  - 1, false
Proportion agreed: 1.0
Agreement by chance: 1.0
Kappa for User A and B: 0

Jetzt kann ich sehen, dass die zufällige Übereinstimmung offensichtlich 1 ist, was dazu führt, dass Kappa Null ist, aber zählt dies als verlässliches Ergebnis? Das Problem ist, dass ich normalerweise nicht mehr als zwei Urteile pro Kriterium habe, daher werden diese niemals mit einem Kappa größer als 0 bewertet, was meiner Meinung nach nicht sehr repräsentativ ist.

Habe ich recht mit meinen Berechnungen? Kann ich eine andere Methode verwenden, um die Übereinstimmung zu berechnen?

Hier können wir sehen, dass Kappa für mehrere Urteile gut funktioniert:

User A judgements: 
  - 1, false
  - 2, true
  - 3, false
  - 4, false
  - 5, true
User A judgements: 
  - 1, true
  - 2, true
  - 3, false
  - 4, true
  - 5, false
Proportion agreed: 0.4
Agreement by chance: 0.5
Kappa for User A and B: -0.19999999999999996

reliability information-retrieval slhck
quelle

Für die Interrater-Zuverlässigkeit mit binären Ergebnissen wird normalerweise der tetrachorische Koeffizient verwendet.

Shabbychef

Könnten Sie das näher erläutern? Ich bin definitiv kein Experte in Bezug auf Statistik und ich kann keinen direkten Ansatz zur Berechnung eines tetrachorischen Koeffizienten finden.

Slhck

Ich glaube nicht, dass Sie bei der ersten Berechnung Recht haben. Wenn ich mich nicht irre, sollte die zufällige Übereinstimmung 0,5 sein, was einen Kappa von 0

ergibt

Ich verstehe das information-retrievalTag hier nicht wirklich .

Chl

Ich weiß nicht, ich arbeite an einer Informationsabrufaufgabe, bei der Leute beurteilen, ob Dokumente relevant sind oder nicht, daher die Kappa-Statistik. Aber jeder kann hier Beiträge erneut markieren, also zögern Sie nicht! @onestop, gemäß dieser Standardanleitung sind meine Zahlen korrekt, die gepoolten Ränder sind .75 bzw. .25, und beide sind quadratisch und addiert gleich .625

slhck

Antworten:

Die "Zufallskorrektur" in Cohens schätzt die Wahrscheinlichkeiten, mit denen jeder Bewerter die vorhandenen Kategorien auswählt. Die Schätzung ergibt sich aus den Grenzhäufigkeiten der Kategorien. Wenn Sie nur 1 Urteil für jeden Bewerter haben, bedeutet dies, dass davon ausgeht, dass die für dieses Einzelurteil ausgewählte Kategorie im Allgemeinen eine Wahrscheinlichkeit von 1 hat. Dies ist offensichtlich nicht sinnvoll, da die Anzahl der Urteile (1) zu gering ist, um zuverlässig geschätzt zu werden die Basisraten aller Kategorien. $\kappa$ $\kappa$

Eine Alternative könnte ein einfaches Binomialmodell sein: Ohne zusätzliche Informationen könnten wir annehmen, dass die Wahrscheinlichkeit einer Übereinstimmung zwischen zwei Bewertern für ein Urteil 0,5 beträgt, da Urteile binär sind. Dies bedeutet, dass wir implizit davon ausgehen, dass beide Bewerter jede Kategorie mit einer Wahrscheinlichkeit von 0,5 für alle Kriterien auswählen. Die Anzahl der zufällig erwarteten Vereinbarungen über alle Kriterien folgt dann einer Binomialverteilung mit . $p=0.5$

Karakal
quelle

Ich finde Caracals Antwort überzeugend, aber ich glaube auch, dass Cohens Kappa nur einen Teil dessen ausmachen kann, was Interrater-Zuverlässigkeit ausmacht. Der einfache Prozentsatz der übereinstimmenden Ratings macht einen anderen Teil und die Korrelation zwischen den Ratings einen Drittel aus. Es sind alle drei Methoden erforderlich, um ein vollständiges Bild zu erhalten. Weitere Informationen finden Sie unter http://pareonline.net/getvn.asp?v=9&n=4 :

"[...] die allgemeine Praxis, Interrater-Zuverlässigkeit als ein einziges, einheitliches Konzept zu beschreiben, ist bestenfalls ungenau und im schlimmsten Fall potenziell irreführend."

rolando2
quelle