Ich bin etwas verwirrt hinsichtlich des Intraclass-Korrelationskoeffizienten und der Einweg-ANOVA. So wie ich es verstehe, sagen beide, wie ähnlich Beobachtungen innerhalb einer Gruppe im Vergleich zu Beobachtungen in anderen Gruppen sind.
Könnte jemand dies etwas besser erklären und vielleicht die Situation (en) erklären, in denen jede Methode vorteilhafter ist?
Antworten:
Beide Methoden beruhen auf der gleichen Idee, die beobachtete Varianz in verschiedene Teile oder Komponenten zu zerlegen. Es gibt jedoch subtile Unterschiede, ob wir Elemente und / oder Bewerter als feste oder zufällige Effekte betrachten. Abgesehen davon, dass gesagt wird, welcher Teil der Gesamtvariabilität durch den Zwischenfaktor erklärt wird (oder wie stark die Zwischenvarianz von der Restvarianz abweicht), sagt der F-Test nicht viel. Zumindest gilt dies für eine Einweg-ANOVA, bei der wir einen festen Effekt annehmen (und der dem unten beschriebenen ICC (1,1) entspricht). Andererseits liefert der ICC einen begrenzten Index bei der Beurteilung der Bewertungszuverlässigkeit für mehrere "austauschbare" Bewerter oder der Homogenität zwischen Analyseeinheiten.
Wir machen normalerweise die folgende Unterscheidung zwischen den verschiedenen Arten von ICCs. Dies folgt aus der wegweisenden Arbeit von Shrout und Fleiss (1979):
Dies entspricht den Fällen 1 bis 3 in Tabelle 1. Eine zusätzliche Unterscheidung kann getroffen werden, je nachdem, ob wir der Ansicht sind, dass die beobachteten Bewertungen der Durchschnitt mehrerer Bewertungen sind (sie werden als ICC (1, k), ICC (2, k) bezeichnet. und ICC (3, k)) oder nicht.
In der Summe müssen Sie das richtige Modell auswählen (Einweg vs. Zweiweg), und dies wird in Shrout und Fleiss 'Artikel weitgehend diskutiert. Ein Einwegmodell liefert tendenziell kleinere Werte als das Zweiwegmodell. Ebenso liefert ein Zufallseffektmodell im Allgemeinen niedrigere Werte als ein Modell mit festen Effekten. Ein aus einem Modell mit festen Effekten abgeleiteter ICC wird als ein Weg zur Bewertung der Konsistenz der Bewerter angesehen (da wir die Varianz der Bewerter ignorieren), während wir für ein Modell mit zufälligen Effekten von einer Schätzung der Übereinstimmung der Bewerter sprechen (ob die Bewerter austauschbar sind oder nicht). Nur die Zwei-Wege-Modelle enthalten die Interaktion zwischen Rater und X-Subjekt, die bei dem Versuch, untypische Bewertungsmuster zu entschlüsseln, von Interesse sein könnte.
Die folgende Abbildung ist leicht ein Kopieren / Einfügen des Beispiels aus
ICC()
dem Psychopaket (Daten stammen von Shrout und Fleiss, 1979). Die Daten bestehen aus 4 Richtern (J), die 6 Probanden oder Ziele (S) bewerten, und sind nachstehend zusammengefasst (ich gehe davon aus, dass sie als R-Matrix mit dem Namen gespeichert sindsf
).Dieses Beispiel ist interessant, weil es zeigt, wie die Wahl des Modells die Ergebnisse beeinflussen kann, daher die Interpretation der Zuverlässigkeitsstudie. Alle 6 ICC-Modelle sind wie folgt (dies ist Tabelle 4 in Shrout und Fleiss 'Artikel)
Wie zu sehen ist, würde die Betrachtung von Bewertern als feste Effekte (daher nicht der Versuch, auf einen größeren Pool von Bewertern zu verallgemeinern) einen viel höheren Wert für die Homogenität der Messung ergeben. (Ähnliche Ergebnisse konnten mit dem irr- Paket (
icc()
) erzielt werden , obwohl wir mit der unterschiedlichen Option für Modelltyp und Analyseeinheit spielen müssen.)Was sagt uns der ANOVA-Ansatz? Wir müssen zwei Modelle anpassen, um die relevanten mittleren Quadrate zu erhalten:
Der F-Test muss nicht angeschaut werden, hier sind nur MS von Interesse.
Jetzt können wir die verschiedenen Teile in einer erweiterten ANOVA-Tabelle zusammenstellen, die wie die unten gezeigte aussieht (dies ist Tabelle 3 in Shrout und Fleiss 'Artikel):
(Quelle: mathurl.com )
Dabei stammen die ersten beiden Zeilen aus dem Einwegmodell, während die nächsten beiden aus der Zweiweg-ANOVA stammen.
Es ist einfach, alle Formeln in Shrout und Fleiss 'Artikel zu überprüfen, und wir haben alles, was wir brauchen, um die Zuverlässigkeit für eine einzelne Bewertung abzuschätzen . Was ist mit der Zuverlässigkeit für den Durchschnitt mehrerer Bewertungen (was häufig das Interesse an Interrater-Studien ist)? Nach Hays und Revicki (2005) kann es aus der obigen Zerlegung erhalten werden, indem nur die im Nenner berücksichtigte Gesamt-MS geändert wird, mit Ausnahme des Zwei-Wege-Zufallseffektmodells, für das wir das Verhältnis der MS umschreiben müssen.
Wiederum stellen wir fest, dass die allgemeine Zuverlässigkeit höher ist, wenn Bewerter als feste Effekte betrachtet werden.
Verweise
quelle