Wie kann eine Interrater-Zuverlässigkeit mit mehreren Bewertern, verschiedenen Bewertern pro Teilnehmer und möglichen Änderungen im Laufe der Zeit durchgeführt werden?

8

Die Teilnehmer wurden zweimal bewertet, wobei die 2 Bewertungen durch 3 Jahre getrennt waren. Bei den meisten Teilnehmern wurden die Bewertungen von verschiedenen Bewertern vorgenommen, bei einigen (<10%) führte derselbe Bewerter beide Bewertungen durch. Insgesamt gab es 8 Bewerter, von denen 2 zu beiden Zeitpunkten Bewertungen abgaben.

Da die Bewertungen einen Aspekt der Fähigkeit mit einem hypothetischen "korrekten" Wert hatten, ist die absolute Übereinstimmung zwischen den Bewertern eher von Interesse als von Konsistenz. Da die Bewertungen jedoch im Abstand von 3 Jahren vorgenommen wurden, gab es möglicherweise (und wahrscheinlich auch) eine echte Änderung der Fähigkeit.

  • Was wäre in diesem Fall der beste Zuverlässigkeitstest?
  • Ich neige zu einer klasseninternen Korrelation, aber ist ICC1 das Beste, was ich mit diesen Daten tun kann?
Joyce
quelle

Antworten:

5

Wie wollen Sie die Tatsache berücksichtigen, dass einige Bewertungen von demselben Bewerter vorgenommen wurden? Ich kann mir keine Maßnahmen vorstellen, die dies berücksichtigen, wenn dies nicht konsequent durchgeführt wird. Wenn Sie denselben Bewerter zweimal vergleichen, achten Sie schließlich auf Konsistenz. Wenn Sie zwei Bewerter vergleichen, sehen Sie eine Übereinstimmung. Wenn Sie also sagen, dass Sie die "Zuverlässigkeit" bewerten möchten, ist nicht ganz klar, was Sie bewerten möchten.

Wenn Sie der Meinung sind, dass sich das Fähigkeitsniveau der Probanden wahrscheinlich geändert hat, ist es auch wichtig zu überlegen, wie Sie diese Tatsache erklären können. Haben Sie eine Goldstandardmessung, mit der Sie die Bewerter vergleichen können?

Zusammenfassend müssen Sie also zwei wichtige Fragen beantworten, bevor Sie beurteilen können, wie zuverlässig die Bewerter sind:

  • Wie können Sie Änderungen zwischen den Zeitpunkten quantifizieren und korrigieren, die legitimen Änderungen der Fähigkeiten zugeschrieben werden, anstatt eine schlechte Konsistenz in der Bewertung?
  • Interessieren Sie sich hauptsächlich dafür, wie oft die Bewerter miteinander übereinstimmen oder wie konsequent sie die Bewertungen anwenden?
TARehman
quelle
Vielen Dank für Ihre Antwort, TARehman. Wie Sie sagen, es ist eine Mischung. Ich denke, ich muss die Stichprobe in diejenigen aufteilen, die vom selben Bewerter bewertet wurden, und diejenigen, die es nicht waren. Dann werde ich eine separate Analyse für beide durchführen (Intra- bzw. Interzuverlässigkeit). Was das Problem der tatsächlichen Veränderung
Joyce
Es scheint mir, dass Sie, wenn Sie sie aufteilen, möglicherweise das Endergebnis zu einer Meta-Zuverlässigkeit zusammenfassen können, aber ein solcher Plan ist mit methodischen Herausforderungen behaftet. Ich denke, ICC wird Ihre beste Option sein. Wie sind Ihre Zahlen (wie viele Bewertungen, Einzelpersonen usw. - wir wissen, dass Sie 8 Bewerter haben)?
TARehman
Für jedes einzelne n = 800 gibt es also 2 Bewertungen. Es gab 5 Bewerterbewertungen bei t1 und 5 bei t2 (insgesamt 8 mit 2 Bewertungen sowohl bei t1 als auch bei t2). 100 Personen wurden zu beiden Zeitpunkten von demselben Bewerter bewertet und 700 hatten unterschiedliche Bewerter. Ich kann nicht herausfinden, welcher ICC hier am besten geeignet wäre ...
Joyce
Nun, es hört sich so an, als könnten Sie einen der beiden oben genannten Punkte ansprechen, indem Sie die 100 Personen ignorieren, die zu beiden Zeitpunkten von demselben Bewerter bewertet wurden. Damit ist zumindest die Frage beantwortet, woran Sie interessiert sind: Wie oft stimmen sie überein oder wie konsequent wenden sie die Bewertungen an. Da Sie keine Möglichkeit haben, die erwartete Änderung der Werte im Laufe der Zeit zu kontrollieren, bin ich mir immer noch nicht sicher, wie Sie den ersten Punkt ansprechen werden ...
TARehman
Bearbeitet, um hinzuzufügen: Die Wikipedia-Diskussion zu diesem Aspekt des IStGH dient möglicherweise der Veranschaulichung: en.wikipedia.org/wiki/… . Insbesondere heißt es, dass es "verwendet werden kann, um die Konsistenz oder Konformität von Messungen zu bewerten, die von mehreren Beobachtern durchgeführt wurden, die dieselbe Menge messen". Da die Bewerter in diesem Fall nicht die gleiche Menge messen, ist der ICC möglicherweise nicht für Ihre Situation geeignet.
TARehman