Ich benutze Cohens Kappa , um die Übereinstimmung zwischen zwei Richtern zu berechnen.
Es wird berechnet als:
wobei der Anteil der Übereinstimmung und die Wahrscheinlichkeit einer zufälligen Übereinstimmung ist.P ( E )
Für den folgenden Datensatz erhalte ich nun die erwarteten Ergebnisse:
User A judgements:
- 1, true
- 2, false
User B judgements:
- 1, false
- 2, false
Proportion agreed: 0.5
Agreement by chance: 0.625
Kappa for User A and B: -0.3333333333333333
Wir können sehen, dass beide Richter nicht sehr gut übereinstimmten. In dem folgenden Fall, in dem beide Richter ein Kriterium bewerten, wird Kappa mit Null bewertet:
User A judgements:
- 1, false
User B judgements:
- 1, false
Proportion agreed: 1.0
Agreement by chance: 1.0
Kappa for User A and B: 0
Jetzt kann ich sehen, dass die zufällige Übereinstimmung offensichtlich 1 ist, was dazu führt, dass Kappa Null ist, aber zählt dies als verlässliches Ergebnis? Das Problem ist, dass ich normalerweise nicht mehr als zwei Urteile pro Kriterium habe, daher werden diese niemals mit einem Kappa größer als 0 bewertet, was meiner Meinung nach nicht sehr repräsentativ ist.
Habe ich recht mit meinen Berechnungen? Kann ich eine andere Methode verwenden, um die Übereinstimmung zu berechnen?
Hier können wir sehen, dass Kappa für mehrere Urteile gut funktioniert:
User A judgements:
- 1, false
- 2, true
- 3, false
- 4, false
- 5, true
User A judgements:
- 1, true
- 2, true
- 3, false
- 4, true
- 5, false
Proportion agreed: 0.4
Agreement by chance: 0.5
Kappa for User A and B: -0.19999999999999996
information-retrieval
Tag hier nicht wirklich .Antworten:
Die "Zufallskorrektur" in Cohens schätzt die Wahrscheinlichkeiten, mit denen jeder Bewerter die vorhandenen Kategorien auswählt. Die Schätzung ergibt sich aus den Grenzhäufigkeiten der Kategorien. Wenn Sie nur 1 Urteil für jeden Bewerter haben, bedeutet dies, dass davon ausgeht, dass die für dieses Einzelurteil ausgewählte Kategorie im Allgemeinen eine Wahrscheinlichkeit von 1 hat. Dies ist offensichtlich nicht sinnvoll, da die Anzahl der Urteile (1) zu gering ist, um zuverlässig geschätzt zu werden die Basisraten aller Kategorien.κκ κ
Eine Alternative könnte ein einfaches Binomialmodell sein: Ohne zusätzliche Informationen könnten wir annehmen, dass die Wahrscheinlichkeit einer Übereinstimmung zwischen zwei Bewertern für ein Urteil 0,5 beträgt, da Urteile binär sind. Dies bedeutet, dass wir implizit davon ausgehen, dass beide Bewerter jede Kategorie mit einer Wahrscheinlichkeit von 0,5 für alle Kriterien auswählen. Die Anzahl der zufällig erwarteten Vereinbarungen über alle Kriterien folgt dann einer Binomialverteilung mit .p=0.5
quelle
Ich finde Caracals Antwort überzeugend, aber ich glaube auch, dass Cohens Kappa nur einen Teil dessen ausmachen kann, was Interrater-Zuverlässigkeit ausmacht. Der einfache Prozentsatz der übereinstimmenden Ratings macht einen anderen Teil und die Korrelation zwischen den Ratings einen Drittel aus. Es sind alle drei Methoden erforderlich, um ein vollständiges Bild zu erhalten. Weitere Informationen finden Sie unter http://pareonline.net/getvn.asp?v=9&n=4 :
quelle