Varianzaufteilung und longitudinale Änderungen in Korrelation mit binären Daten

14

Ich analysiere Daten zu 300.000 Schülern in 175 Schulen mit einem logistischen linearen Mischeffektmodell (zufällige Abschnitte). Jeder Schüler kommt genau einmal vor und die Daten erstrecken sich über 6 Jahre.

  1. Wie teile ich die Varianz zwischen der Schul- und der Schülerebene ähnlich wie beim VPC / ICC für kontinuierliche Ergebnisse ein? Ich habe diesen Artikel gesehen, der 4 Methoden vorschlägt, von denen A und B für mich interessant erscheinen, aber ich möchte wissen, welche Vor- / Nachteile es bei der Verwendung dieser beiden Methoden geben kann, und natürlich, ob es andere Möglichkeiten gibt es.

  2. Wie kann ich die Restvarianz auf Schulebene von Jahr zu Jahr (oder einem anderen Zeitraum) vergleichen? Bisher habe ich dies getan , indem die Daten von Jahr zu teilen und das Modell gegen jedes Jahr der Daten ausgeführt wird, aber ich denke , das fehlerhaft ist , weil: i) es keinen offensichtlichen Grund, warum ich aufgeschlüsselt nach sein sollte , Jahr ; und ii) da die Schätzungen der festen Effekte für jedes Jahr unterschiedlich sind, ist ein Vergleich der zufälligen Effekte von Jahr zu Jahr möglicherweise nicht sinnvoll (dies ist nur meine Intuition, es wäre großartig, wenn jemand dies formeller erklären könnte, wenn es richtig ist).

HINWEIS: Ich habe diese Frage nach einer Diskussion in Meta mit Whuber und Macro neu geschrieben

Joe King
quelle
3
Ich denke, das ist eine große Verbesserung. Die Frage ist jetzt sehr klar. Im Moment habe ich keine Zeit, eine gut organisierte Antwort zu geben, aber ich werde eine Antwort später posten.
Makro
3
Logistische Mixed-Effects-Modelle scheinen ein extrem fortgeschrittenes Thema für die High School zu sein. Sind sie Teil Ihres High School Lehrplans oder studieren Sie selbständig?
mark999
4
@ mark999 Ich lerne selbständig. Eigentlich versuche ich , mein Bruder das Gegenteil zu beweisen, der sagte „es gibt keinen Weg Sie das verstehen könnte“ . Er macht einen Abschluss in Statistik, damit ich Zugang zu all seinen Büchern usw. habe (wenn er nett ist).
Joe King

Antworten:

15

Sei yij,xij der Antwort- bzw. Prädiktorvektor des Schülers i in der Schule j .

(1) Für binäre Daten denke ich, dass die Standardmethode für Varianzzerlegungen analog zu der für kontinuierliche Daten ist, die die Autoren in Ihrem Link als Methode D (ich werde die anderen Methoden unten kommentieren) bezeichnen - und die binären Daten als vorstellen sich aus einer zugrunde liegenden stetigen Variablen ergeben, die von einem linearen Modell bestimmt wird, und die Varianz auf dieser latenten Skala zerlegen. Der Grund dafür ist, dass logistische Modelle (und andere GLMs) natürlich auf diese Weise entstehen:

Um dies zu sehen, definieren Sie yij so, dass es von einem linearen gemischten Modell gesteuert wird:

yij=α+xijβ+ηj+εij

wobei α,β Regressionskoeffizienten sind, ηjN(0,σ2) der Zufallseffekt auf Schulebene ist und εij der Restvarianzterm ist und eine logistische Standardverteilung aufweist . Nun lass

yij={1if   yij00if   yij<0

sei , einfach unter Verwendung der logistischen CDF, die wir habenpij=P(yij=1|xij,ηj)

pij=1P(yij<0|xij,ηj)=exp{(α+xijβ+ηj)}1+exp{(α+xijβ+ηj)}

Nun nehmen Sie die logit-Transformation beider Seiten vor

log(pij1pij)=α+xijβ+ηj

Das ist genau das logistische Mischeffektmodell. Das logistische Modell entspricht also dem oben angegebenen latenten Variablenmodell. Ein wichtiger Hinweis:

  • Die Skala von wird nicht identifiziert, da sie, wenn Sie sie verkleinern würden, aber eine Konstante s , einfach die obige in ändern würdeεijs

exp{(α+xijβ+ηj)/s}1+exp{(α+xijβ+ηj)/s}

       daher würden die Koeffizienten und Zufallseffekte einfach um den entsprechenden Betrag vergrößert. So, s = 1 verwendet wird, was bedeutet , v a r ( ε i j ) = π 2 / 3
      s=1var(εij)=π2/3 .

Nun, wenn Sie dieses Modell und dann die Menge verwenden

σ^η2σ^η2+π2/3

schätzt die klasseninterne Korrelation der underlying latent variables. Another important note:

  • εij
    σ^η2σ^η2+1
    estimates the tetrachoric correlation between two randomly selected pupils in the same school, which were shown by Pearson (around 1900 I think) to be statistically identified when the underlying continuous data was normally distributed (this work actually showed these correlations were identified beyond the binary case to the multiple category case, where these correlations are termed polychoric correlations). For this reason, it may be preferable (and would be my recommenation) to use a probit model when the primary interest is in estimating the (tetrachoric) intraclass correlation of binary data.

Regarding the other methods mentioned in the paper you linked:

  • (A) Ich habe die Linearisierungsmethode noch nie gesehen, aber ein Nachteil, den ich sehen kann, ist, dass es keinen Hinweis auf den dadurch verursachten Approximationsfehler gibt. Wenn Sie das Modell (durch eine potenziell grobe Näherung) linearisieren möchten, warum sollten Sie dann nicht zunächst ein lineares Modell verwenden (z. B. Option (C) , auf die ich gleich zurückkommen werde)? Es wäre auch komplizierter zu präsentieren, da der IStGH davon abhängen würdexichj.

  • (B) Die Simulationsmethode ist für einen Statistiker intuitiv ansprechend, da sie eine geschätzte Varianzzerlegung auf der ursprünglichen Skala der Daten ergibt. Je nach Zielgruppe kann es jedoch (i) kompliziert sein, dies in Ihren "Methoden" zu beschreiben. Abschnitt und (ii) können einen Rezensenten ausschalten, der nach etwas "mehr Standard" suchte

  • (C) Es ist wahrscheinlich keine gute Idee, vorzugeben, dass die Daten kontinuierlich sind, obwohl sie keine schlechte Leistung erbringen, wenn die meisten Wahrscheinlichkeiten nicht zu nahe bei 0 oder 1 liegen also würde ich wegbleiben.

Nun endlich

(2) If the fixed effects are very different across years, then you're right to think that it could be difficult to compare the random effect variances across years, since they are potentially on different scales (this is related to the non-identifiability of scaling issue mentioned above).

If you want to keep the fixed effects over time (however, if you see them changing a lot over time, you may not want to do that) but look at the change in the random effect variance, you can explore this effect using some random slopes and dummy variables. For example, if you wanted to see if the ICCs were different in different years, you culd let Ik=1 if the observation was made in year k and 0 otherwise and then model your linear predictor as

α+xijβ+η1jI1+η2jI2+η3jI3+η4jI4+η5jI5+η6jI6

this will give you a different ICCs each year but the same fixed effects. It may be tempting to just use a random slope in time, making your linear predictor

α+xijβ+η1+η2t

but I don't recommend this, since that will only allow your associations to increase over time, not decrease.

Macro
quelle
Please would you give me your comment to address the point in the linked article about this variance partitioning technique that says "This approach may be reasonable where the (0, 1) response is, say, derived from a truncation of an underlying continuum such as a pass/fail response based upon a continuous mark scale, but would seem to have less justification when the response is truly discrete, such as mortality or voting". In my case I am dealing with the incidence of bullying, which falls into the latter category, I think...
Joe King
@JoeKing, I would say that logistic/probit (and similar) regression models already assume that the data are generated from an underlying continuum, since the model can be shown to be equivalent to that. Therefore, if one is even using such models, then they must find that assumption to be defensible :)
Macro
1
@JoeKing, if you consider this answer definitive please consider accepting :)
Macro
I will indeed. At the moment I'm a bit uncertain about a few points and I'd like to come back to you after I've had a little time (couple of days) to read around a little, and look at the data some more, if you don't mind ?
Joe King
@JoeKing Of course - some new members are unaware, so I thought I'd point that out - it wasn't meant to place pressure you at all
Macro