Abweichungen „mitteln“

10

Ich muss eine Art "Durchschnitt" aus einer Liste von Abweichungen ermitteln, habe aber Probleme, eine vernünftige Lösung zu finden. Es gibt eine interessante Diskussion über die Unterschiede zwischen den drei pythagoreischen Mitteln (arithmetisch, geometrisch und harmonisch) in diesem Thread ; Ich glaube jedoch immer noch nicht, dass einer von ihnen ein guter Kandidat wäre. Irgendwelche Vorschläge?

PS Ein gewisser Kontext - Diese Varianzen sind Stichprobenvarianzen von Probanden, von denen jeder denselben Versuchsaufbau mit ungefähr derselben Stichprobengröße durchlief . Mit anderen Worten, es gibt Stichprobenvarianzen , , ..., , die diesen Subjekten entsprechen. Auf Bevölkerungsebene wurde bereits eine Metaanalyse durchgeführt. Der Grund, warum ich eine Art "durchschnittliche" oder "zusammengefasste" Stichprobenvarianz erhalten muss, ist, dass ich damit einen Index wie ICC nach der Metaanalyse berechnen möchte .k n σ 2 1 σ 2 2 σ 2 n nnknσ12σ22σn2n

PPS Um die Diskussion konkreter zu halten, möchte ich das Problem anhand des folgenden Beispiels in R erläutern:

library(metafor)
dat <- get(data(dat.konstantopoulos2011))
dat$district <- as.factor(dat$district)
dat$school <- as.factor(dat$school)

Im Datensatz gibt es eine Varianz, die mit der Leistungsbewertung jeder Schule verknüpft ist:

str(dat)
Classes ‘escalc’ and 'data.frame':  56 obs. of  6 variables:
 $ district: Factor w/ 11 levels "11","12","18",..: 1 1 1 1 2 2 2 2 3 3 ...
 $ school  : Factor w/ 11 levels "1","2","3","4",..: 1 2 3 4 1 2 3 4 1 2 ...
 $ year    : int  1976 1976 1976 1976 1989 1989 1989 1989 1994 1994 ...
 $ yi      : atomic  -0.18 -0.22 0.23 -0.3 0.13 -0.26 0.19 0.32 0.45 0.38 ...
 $ vi      : num  0.118 0.118 0.144 0.144 0.014 0.014 0.015 0.024 0.023 0.043 ...

Angenommen, wir führen eine Metaanalyse mit einem hierarchischen Modell oder einem Modell mit gemischten Effekten durch:

yij=a+αi+βj+ϵij

Dabei sind und die zufälligen Effekte für die te Schule bzw. den ten Bezirk und der Messfehler mit einer bekannten Gaußschen Verteilung . Dieses Modell kann wie folgt analysiert werden:β j i j ϵ i j N ( 0 , v i j )αiβjijϵijN(0,vij)

(fm <- rma.mv(yi, vi, random = list(~1 | district, ~1 | school), data=dat)) 

Rendern der folgenden Varianzschätzungen für die beiden Varianzkomponenten:

Multivariate Meta-Analysis Model (k = 56; method: REML)
Variance Components: 

            estim    sqrt  nlvls  fixed    factor
sigma^2.1  0.0814  0.2853     11     no  district
sigma^2.2  0.0010  0.0308     11     no    school

Die beiden Varianzen im Ergebnis, Sigma ^ 2.1 und Sigma ^ 2.2, entsprechen den beiden Variablen mit zufälligen Effekten (Bezirk und Schule).

Ich möchte den ICC für Distrikt berechnen, und deshalb wollte ich zunächst eine zusammengefasste Varianz für diese einzelnen Varianzen des . Da ist die Gesamtvarianz ϵ i jvijϵij

Var(yij)=Var(αi+βj+ϵij)=σ12+σ22+vij

Mein ursprünglicher (und einfacher) Ansatz bestand darin, nur das arithmetische Mittel zu verwenden:

σ12σ12+σ22+mean(vij)

Ich bin mir jedoch nicht sicher, ob das arithmetische Mittel in diesem Zusammenhang angemessen ist.mean(vij)

Bluepole
quelle
4
Der Kontext ist hier alles. Handelt es sich um theoretische Abweichungen (Verteilungsmomente) oder Stichprobenabweichungen? Wenn es sich um Stichprobenvarianzen handelt, wie ist die Beziehung zwischen den Stichproben? Kommen sie aus derselben Bevölkerung? Wenn ja, haben Sie die Größe jeder Probe zur Verfügung? Wenn die Stichproben nicht aus derselben Population stammen, wie rechtfertigen Sie die Mittelung über die Varianzen?
Alecos Papadopoulos
2
Hierarchische Modellierung ist eine sehr flexible Antwort. Dieser Blogbeitrag über die acht Schulen ist ein guter Anfang. andrewgelman.com/2014/01/21/… Gelman et al., Bayesian Data Analysis ist ein großartiger Ort, um weitere Informationen zu erhalten.
Sycorax sagt Reinstate Monica
2
Mögliches Duplikat von Wie summiere ich eine Standardabweichung?
Firebug
1
Ist das ein XY-Problem? Möchten Sie wissen, wie man Varianzen mittelt ... Oder möchten Sie wissen, wie man einen ICC für eine Metaanalyse berechnet?
Mark White
1
In diesem Fall hilft diese stats.stackexchange.com/questions/187197/… Post?
Mdewey

Antworten:

7

Wenn Sie die Kommentare erweitern, die Sie erhalten haben, finden Sie die Antwort auf die Frage in Ihrem Titel bereits unter Wie summiere ich eine Standardabweichung? Thread und lautet wie folgt: Um die durchschnittliche Standardabweichung zu erhalten, nehmen Sie zuerst den Durchschnitt der Varianzen und dann die Quadratwurzel daraus.

n×knk

Beachten Sie, dass moderne Formulierungen von ICC es tatsächlich in Form von Modellen mit gemischten Effekten der oben beschriebenen Art definieren. Die Verwendung eines solchen Modells löst also mehrere Probleme für Sie und ist häufig der empfohlene Ansatz für die Metaanalyse (beachten Sie jedoch, dass ICC dies kann irreführend sein ).


In Bezug auf Ihre Bearbeitung, wenn Ihr Modell ist

yij=a+αi+βj+ϵij

αiN(μα,σα2)βjN(μβ,σβ2)ϵijN(0,σϵ2)

ICCα=σα2σα2+σβ2+σϵ2

α,βϵα

(...) Die Intraclass-Korrelation ist lediglich der Bruchteil der Gesamtvarianz aufgrund der Ursache, die Beobachtungen derselben Klasse gemeinsam haben.

Der Zähler in der ICC-Formel ist also die Varianz des interessierenden Effekts und der Nenner ist die Gesamtvarianz. Beachten Sie, dass der Mittelwert der Abweichungen nichts mit der Gesamtvarianz (Summe der Abweichungen) zu tun hat. Wenn ich also nichts falsch verstehe, kann ich nicht erkennen, warum der Mittelwert hier für Sie von Interesse ist.

Tim
quelle
Ich freue mich sehr über die Antwort und alle obigen Kommentare! Ich habe gerade ein weiteres Postskriptum in den ursprünglichen Beitrag eingefügt, um das Problem weiter zu klären. Ich muss zugeben, dass ich mit dem Bayes'schen Ansatz nicht so vertraut bin. Wenn das Problem unter dem Bayes'schen Paradigma besser charakterisiert werden kann, gehen Sie bitte etwas näher auf den Beispieldatensatz ein, den ich gerade im Postskriptum vorgestellt habe. Vielen Dank!
Bluepole
@bluepole Du brauchst kein Bayes'sches Modell. Das traditionelle Modell mit gemischten Effekten würde gut funktionieren. Bayesianische Modelle sind für solche Probleme im Allgemeinen flexibler.
Tim
Denken Sie für den hinzugefügten Beispieldatensatz in meinem ursprünglichen Beitrag, dass das arithmetische Mittel im Kontext angemessen ist?
Bluepole
ϵijN(0,σij2)N(0,σϵ2)σij2σϵ2
ϵijN(0,σij2)σij2iσij2/ijσij2