Auf einer Konferenz habe ich die folgende Aussage gehört:
100 Messungen für 5 Probanden liefern viel weniger Informationen als 5 Messungen für 100 Probanden.
Es ist ein bisschen offensichtlich, dass dies wahr ist, aber ich habe mich gefragt, wie man es mathematisch beweisen könnte ... Ich denke, ein lineares gemischtes Modell könnte verwendet werden. Allerdings weiß ich nicht viel über die Mathematik, mit der sie geschätzt wurden (ich arbeite nur lmer4
für LMMs und bmrs
GLMMs :) Können Sie mir ein Beispiel zeigen, wo dies zutrifft? Ich würde eine Antwort mit einigen Formeln vorziehen, als nur einem Code in R. Nehmen Sie eine einfache Einstellung an, wie zum Beispiel ein lineares gemischtes Modell mit normalverteilten zufälligen Abschnitten und Steigungen.
PS Eine mathematische Antwort, die keine LMMs beinhaltet, wäre auch in Ordnung. Ich dachte an LMMs, weil sie für mich das natürliche Werkzeug waren, um zu erklären, warum weniger Kennzahlen von mehr Probanden besser sind als mehr Kennzahlen von wenigen Probanden, aber ich kann mich durchaus irren.
Antworten:
Die kurze Antwort ist, dass Ihre Vermutung wahr ist, wenn und nur wenn es eine positive Korrelation zwischen den Klassen in den Daten gibt . Empirisch gesehen weisen die meisten Cluster-Datensätze die meiste Zeit eine positive Korrelation innerhalb der Klasse auf, was bedeutet, dass Ihre Vermutung in der Praxis normalerweise wahr ist. Wenn die klasseninterne Korrelation jedoch 0 ist, sind die beiden von Ihnen genannten Fälle gleichermaßen informativ. Und wenn die klasseninterne Korrelation negativ ist , ist es weniger aussagekräftig , weniger Messungen an mehr Probanden durchzuführen. Wir würden es eigentlich vorziehen (was die Verringerung der Varianz der Parameterschätzung betrifft), alle unsere Messungen an einem einzigen Objekt durchzuführen.
Statistisch gesehen gibt es zwei Perspektiven , aus denen wir darüber nachdenken können: ein Zufallseffekt (oder gemischt ) Modell , das Sie in Ihrer Frage erwähnen, oder ein Randmodell , das hier ein bisschen mehr informativ landet.
Modell mit zufälligen Effekten (gemischt)
Angenommen, wir haben eine Gruppe von Probanden, von denen wir jeweils m Messungen vorgenommen haben. Dann wird ein einfaches Zufallseffekt - Modell der j - ten Messung vom i könnte tH unterliegen y i j = β + u i + e i j , wobei β die feste intercept ist, u i ist der Zufall Subjekt - Effekt (mit der Varianz σ 2 u ), e i j ist der Beobachtungsebenenfehlerterm (mit Varianz σ 2 en m j i
In diesem Modell stellt den Populationsmittelwert dar, und bei einem ausgeglichenen Datensatz (dh einer gleichen Anzahl von Messungen von jedem Subjekt) ist unsere beste Schätzung einfach der Stichprobenmittelwert. Wenn wir also "mehr Informationen" als kleinere Varianz für diese Schätzung ansehen, möchten wir im Grunde wissen, wie die Varianz des Stichprobenmittelwerts von n und m abhängt . Mit ein bisschen Algebra können wir dieses var ( 1β n m
My short answer referred to the intra-class correlation, so where does that fit in? In this simple random-effects model the intra-class correlation is
In the context of the random-effects model, a negative intra-class correlation doesn't really make sense, because it implies that the subject varianceσ2u is somehow negative (as we can see from the ρ equation above, and as explained here and here)... but variances can't be negative! But this doesn't mean that the concept of a negative intra-class correlation doesn't make sense; it just means that the random-effects model doesn't have any way to express this concept, which is a failure of the model, not of the concept. To express this concept adequately we need to consider the marginal model.
Marginal model
For this same dataset we could consider a so-called marginal model ofyij ,
So now when we look at the equation for the variance of the sample mean under the marginal model, we have
(BTW, just a quick aside to point out that the second-to-last line of the derivation above implies that we must haveρ≥−1/(m−1) , or else the whole equation is negative, but variances can't be negative! So there is a lower bound on the intra-class correlation that depends on how many measurements we have per cluster. For m=2 (i.e., we measure each subject twice), the intra-class correlation can go all the way down to ρ=−1 ; for m=3 it can only go down to ρ=−1/2 ; and so on. Fun fact!)
So finally, once again considering the total number of observationsnm to be a constant, we see that the second-to-last line of the derivation above just looks like
quelle