Was ist bei geringer Interrater-Zuverlässigkeit (ICC) zu tun?

8

Hintergrund: Acht Ärzte bewerteten jeweils die gleichen 54 Patienten anhand einer Überzeugungsmaßnahme (1-7 Likert-Skala). Die mittlere Punktzahl für das Überzeugungsmaß wird schließlich das Ergebnismaß meines Experiments sein.

Die Interrater-Zuverlässigkeit wurde als Intraclass-Korrelationskoeffizient (ICC) unter Verwendung des Zwei-Wege-Zufallseffektmodells mit Konsistenz quantifiziert. Leider war die Interrater-Zuverlässigkeit der acht Ärzte gering (ICC = 0,350, Einzelmaßnahmen). Sollte ich mit diesen unzuverlässigen Daten noch weitere geplante Analysen durchführen? Oder kann es möglicherweise gerechtfertigt sein, dass ich nur die Ärzte (dh die Bewerter) mit der höchsten Zuverlässigkeit zwischen den Bewertern einbeziehe? Ich fand heraus, dass es zwei Ärzte mit einer akzeptableren Interrater-Zuverlässigkeit gibt (ICC = 0,718, N = 2), aber ich denke nicht, dass dies Grund genug ist, die anderen Ärzte von den Analysen auszuschließen. Ich würde mich sehr über Hinweise auf Literatur freuen, die sich mit diesem Problem befassen.

Leau
quelle

Antworten:

6

Ich würde lieber auf der Grundlage der Methodik selbst antworten, als wie man die Situation "behebt". In einem anderen Zusammenhang half ich bei der Arbeit an einem Rating- und Klassifizierungssystem und stellte fest, dass die Übereinstimmung zwischen den Bewertern enttäuschend niedrig war. Es wurden zwei Wege in Betracht gezogen

  1. Ändern Sie, wie Ratingvereinbarungen definiert wurden, und identifizieren Sie diejenigen, die die Aufgabe zu "verstehen" schienen, oder
  2. Verfeinern Sie die verwendeten Definitionen zusammen mit den Anleitungen und Beispielen für die Bewerter, damit diese leichter verstehen, wie die Dinge zu bewerten sind.

Im ersten Szenario konnten die gesamte Methodik und die Ergebnisse einfach deshalb verschwendet werden, weil die Zuverlässigkeit zwischen den Bewertern gering war. Es zeigte an, dass entweder die ursprünglichen Definitionen schlecht waren oder dass die Bewerter schlechte Anweisungen erhielten. Wenn ich diesen Weg ging, hatte ich sicher Probleme.

Im zweiten Fall war die Übereinstimmung zwischen den Bewertern sehr gut. Da sie eine ganze Reihe von Punkten bewertet haben, konnten sie auch Feedback geben, wenn sie der Meinung waren, dass die ursprünglichen Definitionen und Anleitungen unzureichend waren. Am Ende war die Methodik sehr reproduzierbar.

Auf dieser Grundlage würde ich Ihre Gruppe von Bewertern noch nicht ändern, sondern zu den ursprünglichen Definitionen und Leitlinien zurückkehren. Jedes Basteln nach der Bewertung ist ein Problem, kann jedoch als Qualitätsprüfung hilfreich sein. Es gibt manchmal Bewerter, die tun, was sie wollen, unabhängig von der gegebenen Anleitung. Mit guten statistischen Methoden ist es einfach, sie zu identifizieren und ihre Beiträge angemessen zu gewichten.

Wenn ich mich irre und Sie nicht vorhaben, weitere Daten zu sammeln, dh Ihre Daten sind bereits gesammelt und erledigt, können Sie PCA oder ähnliches tun und prüfen, ob Sie ein Gefühl dafür bekommen, wie sich die Daten unterscheiden Ärzte (oder Patienten) Cluster.

Waren die Patienten allen Ärzten gleichzeitig ausgesetzt (z. B. durch eine Videoaufzeichnung) oder wurden sie nacheinander ausgesetzt und hatten die Möglichkeit, ihre Präsentation bei jeder Interaktion zu ändern? In letzterem Fall kann es zu Problemen mit den Patienten und nicht mit den Ärzten kommen.

Iterator
quelle
3

Die Auswahl des besten ICC-Werts aus 28 möglichen Paaren ist definitiv keine gute Idee, da diese Schätzung des ICC sicherlich optimistisch ist.

Neuendorfs The Content Analysis Handbook bietet eine ziemlich gute Diskussion über Optionen für den Umgang mit schlechter Zuverlässigkeit bei der Codierung. Zitat ist:

Neuendorf, Kimberly A. The Content Analysis Handbook. Sage, Thousand Oaks, CA, 2002

Es gibt eine begleitende Website .

DavidDLewis
quelle
Links funktionieren nicht mehr
Tom