Intraclass-Korrelationskoeffizient vs. F-Test (Einweg-ANOVA)?

Ich bin etwas verwirrt hinsichtlich des Intraclass-Korrelationskoeffizienten und der Einweg-ANOVA. So wie ich es verstehe, sagen beide, wie ähnlich Beobachtungen innerhalb einer Gruppe im Vergleich zu Beobachtungen in anderen Gruppen sind.

Könnte jemand dies etwas besser erklären und vielleicht die Situation (en) erklären, in denen jede Methode vorteilhafter ist?

anova psychometrics reliability intraclass-correlation blep
quelle

Bitte nehmen Sie sich die Zeit, um sich die Zuverlässigkeits- oder Interrater- Tags anzusehen . Der ICC basiert auf einer ANOVA-Tabelle, aber die Idee besteht lediglich darin, Varianzkomponenten zu analysieren, anstatt eine einzelne Teststatistik mit bekannten Verteilungseigenschaften wie den F-Test zu erstellen. Welche Anwendung haben Sie im Sinn?

Chl

@chl Ich möchte einzelne Scores für gruppierte Daten analysieren. Ich habe einige Artikel gesehen, in denen Unterschiede zwischen den Ergebnissen von Eltern und Kindern untersucht wurden, wobei anhand des ICC festgestellt wurde, ob es einen signifikanten Unterschied in den Antworten von Eltern und Kindern gab. Ich denke, der ICC ist das, was ich hier will, aber wie ich bereits erwähnte, verstehe ich den Unterschied zwischen den beiden nicht wirklich. Ich zögere, mehr zu fragen, aber kennen Sie gute (grundlegende) Referenzen? Mein statistischer Hintergrund blieb bei der linearen Regression stehen, und ich habe das Gefühl, Fragen zu stellen, die nicht gut formuliert sind. Vielen Dank.

Blep

Es sieht so aus, als hätten Sie Daten gepaart. Wenn Sie separate Gruppen (Eltern vs. ihre Kinder) in Betracht ziehen und einen ICC verwenden, um die Zuverlässigkeit der Ergebnisse zu melden, werden Sie einen Teil der Informationen wegwerfen, dh ob die Bewertungen der Eltern und ihrer Verwandten auf konsistente Weise handeln. Ihre beiden ICCs werden Ihnen nur sagen, ob beide als unabhängig angenommenen Bewertungsreihen "zuverlässig" sind, in dem Sinne, dass ein erheblicher Teil der Varianz auf den Rater-Effekt zurückzuführen sein könnte. (...)

chl

(...) Wenn Sie in der Summe zeigen möchten, dass die Bewertungen der Eltern zuverlässiger sind als die der Kinder, ist die Verwendung von ICC in Ordnung. Wenn Sie andererseits untersuchen möchten, wie sich die Bewertungen der Eltern auf die Bewertungen der Kinder beziehen, können Sie auf eine andere Art der Analyse zurückgreifen (genau auf die Analyse dyadischer Daten).

Chl

Beide Methoden beruhen auf der gleichen Idee, die beobachtete Varianz in verschiedene Teile oder Komponenten zu zerlegen. Es gibt jedoch subtile Unterschiede, ob wir Elemente und / oder Bewerter als feste oder zufällige Effekte betrachten. Abgesehen davon, dass gesagt wird, welcher Teil der Gesamtvariabilität durch den Zwischenfaktor erklärt wird (oder wie stark die Zwischenvarianz von der Restvarianz abweicht), sagt der F-Test nicht viel. Zumindest gilt dies für eine Einweg-ANOVA, bei der wir einen festen Effekt annehmen (und der dem unten beschriebenen ICC (1,1) entspricht). Andererseits liefert der ICC einen begrenzten Index bei der Beurteilung der Bewertungszuverlässigkeit für mehrere "austauschbare" Bewerter oder der Homogenität zwischen Analyseeinheiten.

Wir machen normalerweise die folgende Unterscheidung zwischen den verschiedenen Arten von ICCs. Dies folgt aus der wegweisenden Arbeit von Shrout und Fleiss (1979):

Einweg-Zufallseffektmodell , ICC (1,1): Jeder Punkt wird von verschiedenen Bewertern bewertet, die als aus einem größeren Pool potenzieller Bewerter entnommen betrachtet werden. Daher werden sie als zufällige Effekte behandelt. Der ICC wird dann als Prozentsatz der Gesamtvarianz interpretiert, der auf die Varianz der Probanden / Gegenstände entfällt. Dies wird als Konsistenz-ICC bezeichnet.
Zwei-Wege-Zufallseffektmodell , ICC (2,1): Beide Faktoren - Bewerter und Elemente / Probanden - werden als zufällige Effekte angesehen, und wir haben zusätzlich zur Restvarianz zwei Varianzkomponenten (oder mittlere Quadrate); Wir gehen ferner davon aus, dass die Bewerter alle Punkte / Themen bewerten. Der ICC gibt in diesem Fall den Prozentsatz der Varianz an, der auf Bewerter + Gegenstände / Probanden entfällt.
Zweiwege-Mischmodell , ICC (3,1): Im Gegensatz zum Einweg-Ansatz werden hier Bewerter als feste Effekte betrachtet (keine Verallgemeinerung über die vorliegende Stichprobe hinaus), Gegenstände / Probanden werden jedoch als zufällige Effekte behandelt. Die Analyseeinheit kann die Einzel- oder die Durchschnittsbewertung sein.

Dies entspricht den Fällen 1 bis 3 in Tabelle 1. Eine zusätzliche Unterscheidung kann getroffen werden, je nachdem, ob wir der Ansicht sind, dass die beobachteten Bewertungen der Durchschnitt mehrerer Bewertungen sind (sie werden als ICC (1, k), ICC (2, k) bezeichnet. und ICC (3, k)) oder nicht.

In der Summe müssen Sie das richtige Modell auswählen (Einweg vs. Zweiweg), und dies wird in Shrout und Fleiss 'Artikel weitgehend diskutiert. Ein Einwegmodell liefert tendenziell kleinere Werte als das Zweiwegmodell. Ebenso liefert ein Zufallseffektmodell im Allgemeinen niedrigere Werte als ein Modell mit festen Effekten. Ein aus einem Modell mit festen Effekten abgeleiteter ICC wird als ein Weg zur Bewertung der Konsistenz der Bewerter angesehen (da wir die Varianz der Bewerter ignorieren), während wir für ein Modell mit zufälligen Effekten von einer Schätzung der Übereinstimmung der Bewerter sprechen (ob die Bewerter austauschbar sind oder nicht). Nur die Zwei-Wege-Modelle enthalten die Interaktion zwischen Rater und X-Subjekt, die bei dem Versuch, untypische Bewertungsmuster zu entschlüsseln, von Interesse sein könnte.

Die folgende Abbildung ist leicht ein Kopieren / Einfügen des Beispiels aus ICC()dem Psychopaket (Daten stammen von Shrout und Fleiss, 1979). Die Daten bestehen aus 4 Richtern (J), die 6 Probanden oder Ziele (S) bewerten, und sind nachstehend zusammengefasst (ich gehe davon aus, dass sie als R-Matrix mit dem Namen gespeichert sind sf).

   J1 J2 J3 J4
S1  9  2  5  8
S2  6  1  3  2
S3  8  4  6  8
S4  7  1  2  6
S5 10  5  6  9
S6  6  2  4  7

Dieses Beispiel ist interessant, weil es zeigt, wie die Wahl des Modells die Ergebnisse beeinflussen kann, daher die Interpretation der Zuverlässigkeitsstudie. Alle 6 ICC-Modelle sind wie folgt (dies ist Tabelle 4 in Shrout und Fleiss 'Artikel)

Intraclass correlation coefficients 
                         type  ICC    F df1 df2       p lower bound upper bound
Single_raters_absolute   ICC1 0.17  1.8   5  18 0.16477      -0.133        0.72
Single_random_raters     ICC2 0.29 11.0   5  15 0.00013       0.019        0.76
Single_fixed_raters      ICC3 0.71 11.0   5  15 0.00013       0.342        0.95
Average_raters_absolute ICC1k 0.44  1.8   5  18 0.16477      -0.884        0.91
Average_random_raters   ICC2k 0.62 11.0   5  15 0.00013       0.071        0.93
Average_fixed_raters    ICC3k 0.91 11.0   5  15 0.00013       0.676        0.99

Wie zu sehen ist, würde die Betrachtung von Bewertern als feste Effekte (daher nicht der Versuch, auf einen größeren Pool von Bewertern zu verallgemeinern) einen viel höheren Wert für die Homogenität der Messung ergeben. (Ähnliche Ergebnisse konnten mit dem irr- Paket ( icc()) erzielt werden , obwohl wir mit der unterschiedlichen Option für Modelltyp und Analyseeinheit spielen müssen.)

Was sagt uns der ANOVA-Ansatz? Wir müssen zwei Modelle anpassen, um die relevanten mittleren Quadrate zu erhalten:

ein Einwegmodell, das nur das Thema berücksichtigt; Dies ermöglicht es, die zu bewertenden Ziele (MS zwischen Gruppen, BMS) zu trennen und eine Schätzung des In-Error-Terms (WMS) zu erhalten.
ein Zwei-Wege-Modell, das Subjekt + Bewerter + ihre Interaktion berücksichtigt (wenn es keine Replikationen gibt, wird dieser letzte Term mit den Residuen verwechselt); Dies ermöglicht die Schätzung des Rater-Haupteffekts (JMS), der berücksichtigt werden kann, wenn ein Zufallseffektmodell verwendet werden soll (dh wir addieren es zur Gesamtvariabilität).

Der F-Test muss nicht angeschaut werden, hier sind nur MS von Interesse.

library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))

Jetzt können wir die verschiedenen Teile in einer erweiterten ANOVA-Tabelle zusammenstellen, die wie die unten gezeigte aussieht (dies ist Tabelle 3 in Shrout und Fleiss 'Artikel):

_{(Quelle: mathurl.com )}

Dabei stammen die ersten beiden Zeilen aus dem Einwegmodell, während die nächsten beiden aus der Zweiweg-ANOVA stammen.

Es ist einfach, alle Formeln in Shrout und Fleiss 'Artikel zu überprüfen, und wir haben alles, was wir brauchen, um die Zuverlässigkeit für eine einzelne Bewertung abzuschätzen . Was ist mit der Zuverlässigkeit für den Durchschnitt mehrerer Bewertungen (was häufig das Interesse an Interrater-Studien ist)? Nach Hays und Revicki (2005) kann es aus der obigen Zerlegung erhalten werden, indem nur die im Nenner berücksichtigte Gesamt-MS geändert wird, mit Ausnahme des Zwei-Wege-Zufallseffektmodells, für das wir das Verhältnis der MS umschreiben müssen.

Im Fall von ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS) wird die Gesamtzuverlässigkeit als (BMS-WMS) / BMS = 0,443 berechnet.
Für den ICC (2,1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N) beträgt die Gesamtzuverlässigkeit (N • (BMS-EMS)) / (N · BMS + JMS-EMS) = 0,620.
Schließlich haben wir für ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS) eine Zuverlässigkeit von (BMS-EMS) / BMS = 0,909.

Wiederum stellen wir fest, dass die allgemeine Zuverlässigkeit höher ist, wenn Bewerter als feste Effekte betrachtet werden.

Verweise

Shrout, PE und Fleiss, JL (1979). Intraclass-Korrelationen: Dient zur Bewertung der Zuverlässigkeit von Bewertern . Psychological Bulletin , 86, 420 & ndash; 3428.
Hays, RD und Revicki, D. (2005). Zuverlässigkeit und Gültigkeit (einschließlich Reaktionsfähigkeit). In Fayers, P. und Hays, RD (Hrsg.), Assessing Quality of Life in Clinical Trials , 2. Aufl., S. 25-39. Oxford University Press.

chl
quelle

Intraclass-Korrelationskoeffizient vs. F-Test (Einweg-ANOVA)?

Antworten:

Verweise