Ich versuche, die durchschnittliche Punktzahl für zwei Gruppen von Studenten zu schätzen. Ich benutze ein binomiales Regressionsmodell. Dies total_ans
ist die Gesamtfrage, die sie beantwortet haben und die für verschiedene Schüler unterschiedlich sein kann.
Modell 1 schätzt direkt
model <- glm(cbind(total_correct, total_ans-total_correct) ~ student_type,family= binomial, data = df)
Call: glm(formula = cbind(total_correct, total_ans - total_correct) ~ student_type, family = binomial, data = df)
Coefficients:
(Intercept) student_group_2
-1.9684 0.2139
Degrees of Freedom: 1552 Total (i.e. Null); 1551 Residual Null
Deviance: 1480 Residual Deviance: 1477 AIC: 1764
lsmeans(model,~ student_type, type="response")
student_type prob SE df asymp.LCL asymp.UCL
student_group_1 0.1225627 0.00654160 NA 0.1103074 0.1359715
student_group_2 0.1474774 0.01275231 NA 0.1241918 0.1742602
In Modell 2 verwende ich einen zufälligen Effekt, um einzelne Abweichungen besser zu berücksichtigen.
model <- glmer(cbind(total_correct, total_ans-total_correct) ~ (1|student) + student_type, family= binomial, data = sub_df, control=glmerControl(optimizer = "nloptwrap", calc.derivs = FALSE))
Generalized linear mixed model fit by maximum likelihood (Laplace
Approximation) [glmerMod]
Family: binomial ( logit )
Formula: cbind(total_correct, total_ans - total_correct) ~ (1 | student) +
student_type
Data: sub_df
AIC BIC logLik deviance df.resid
1653.9049 1669.9488 -823.9525 1647.9049 1550
Random effects:
Groups Name Std.Dev.
student (Intercept) 1.881
Number of obs: 1553, groups: author, 1553
Fixed Effects:
(Intercept) student_group_2
-3.0571 0.3915
lsmeans(model,~ student_type, type="response")
student_type prob SE df asymp.LCL asymp.UCL
student_group_1 0.04491007 0.004626728 NA 0.03666574 0.0549025
student_group_2 0.06503249 0.015117905 NA 0.04097546 0.1017156
Ich bin überrascht, dass es einen so großen Unterschied zwischen den Ergebnissen in beiden Gruppen gibt. Was könnte der Grund dafür sein?
Weitere Informationen: Gruppe 1 hat 1434 Schüler, Gruppe 2 hat 119 Schüler. Dies sind natürlich vorkommende Gruppen
emmeans
. Die Syntax wird höchstwahrscheinlich nahezu identisch sein.Antworten:
Die Frage enthält genügend Informationen, um dies zu klären. lsmeans verwendet einfach die Koeffizienten, um die vorhergesagten Gruppenwahrscheinlichkeiten zu erhalten.
Für das GLM lautet das implizite Modell von OP also:
wod ist ein Indikator für die Mitgliedschaft in Gruppe 2. Die vorhergesagten Wahrscheinlichkeiten sind also: ( 1 +e- ( - 1,9684 ))- 1 und ( 1 +e- ( - 1,9684 + 0,2139 ))- 1 für die Gruppen 1 bzw. 2. Diese führen zu vorhergesagten Wahrscheinlichkeiten von etwa12,25 % und 14,75 % beziehungsweise.
Für das Mehrebenenmodell (oder GLMM) lautet das implizite Modell von OP:
wou^ ist der zufällige Schnittpunkt, der als Standardnormal angenommen wird. Die vorhergesagten Wahrscheinlichkeiten von lsmeans nehmen einen zufälligen Schnittwert von Null an(u^= 0 ) ergebend: ( 1 +e- ( - 3,0571 ))- 1 und ( 1 +e- ( - 3,0571 + 0,3915 ))- 1 für die Gruppen 1 bzw. 2. Diese führen zu vorhergesagten Wahrscheinlichkeiten von etwa4,49 % und 6,50 % beziehungsweise. Dies sind die lsmeans GLMM-Ergebnisse.
Ein Problem ist, dass der Abschnitt in GLMM die erwarteten logarithmischen Erfolgsaussichten für jemanden ist, der im Vergleich zu anderen "durchschnittlich" ist. Daher ist es ein Problem, dies als Grundlage für die Berichterstattung über das gesamte Modell zu verwenden. In Bezug auf den anderen Koeffizienten ist ein Vorschlag, warum der Gruppendifferenzkoeffizient zunimmt, dass die Modellqualität besser ist, so dass der Koeffizient zunimmt, auf dieser Website nach zusammenklappbar zu suchen oder zu sehen. Ist eine Metaanalyse der Quotenverhältnisse im Wesentlichen hoffnungslos? .
Um die lsmeans GLMM-Ergebnisse mit den lsmeans GLM-Ergebnissen vergleichbar zu machen. Wir müssen die beobachteten Werte des zufälligen Abschnitts verwenden,u^ . Man kann zufällige Abschnitte simulieren, um dem spezifischen Modell von OP zu entsprechen:
In diesem simulierten Beispiel liegen diese Werte viel näher an den GLM-Ergebnissen von lsmeans. Wenn Sie für Ihre Daten so etwas wie die folgende Syntax ausführen:
Wo
model
sich das GLMM befindet, sollten Sie Werte erhalten, die den lsmeans-Werten sehr nahe kommen. Ich gehe davon aus, dass , wenn Sie rufenfitted()
aufglmer()
, sondern schließt auch die Zufalls abfangen und die Werte , die zurückgegeben werden , sind Wahrscheinlichkeiten.In Ihrer Situation, in der die Gruppen natürlich vorkommen, sollten Sie in den Daten auch die unterschiedlichen Gruppenvarianzen des zufälligen Abschnitts untersuchen. Ein Modell wie:
Möglicherweise lohnt es sich, dies zu untersuchen, da Sie derzeit davon ausgehen, dass sich die zufälligen Intercept-Varianzen nicht nach Gruppen unterscheiden. Ich habe das verwendet,
||
damit lme4 nicht versucht, die beiden zufälligen Abschnitte zu korrelieren.Ich wusste nicht, dass man für jeden Schüler einen zufälligen Abschnitt hinzufügen kann, wenn er im Wesentlichen nur eine Zeile in den Daten hat. Aber ich rationalisiere es weg, indem ich annehme, dass der Versuch gegen Fehler pro Zeile mehrere Zeilen in langer Form beträgt.
quelle
Modell 1, Logistische Regression ohne zufälligen Effekt:
Wir kennen MLEβ^ ist asymptotisch unvoreingenommen. Aber
P.^r ( Y.= 1 ) =L o g i t- 1( X.β^) ist voreingenommene Schätzung von Pr ( Y.= 1 ) , weil die Nichtlinearität der Logit-Funktion. Aber asymptotisch ist es unvoreingenommen. Also für Modell 1,P.^r ( Y.= 1 ) =L o g i t- 1( X.β^) ist akzeptabel.
Modell 2, Logistische Regression mit zufälligem Schnittpunkt:
In dieser Situation ist der häufigste FehlerPr ( Y.= 1 | X.) = E ( Y.| X.) = E (L o g i t- 1( X.β+γich) ) =L o g i t- 1( E ( X.β+γich) )=L o g i t- 1( X.β)
In diesem Prozess wird die Nichtlinearität der Logit-Funktion vollständig berücksichtigt.
Die folgende Ausgabe ist also sehr irreführend. Es gibt einen Eindruck, dass für Schüler der Gruppe 1 die Wahrscheinlichkeit einer Korrektur 4,5% beträgt.
Der obige Fehler kann nicht zu einer logistischen Regression mit gemischten Effekten beitragen, sondern sollte auf eine Fehlinterpretation der Ergebnisse zurückzuführen sein.
Schauen wir uns an, wie man den Grenzmittelwert von korrekt ableitetY. .
Pr ( Y.= 1 | X.) = E ( Y.| X.) = E (L o g i t- 1( X.β+γich) ) =∫∞- ∞L o g i t- 1( z) ϕ ( z) dz
wo z= X.β+γich und ϕ ist pdf von N.( X.β,σ2)
Für Schüler der Gruppe 1 zeigen die Ergebnisse diesX.β= - 3,0571 , σ= 1,881 . Mit der Gauß-Hermite-Quadraturmethode mit 20 Punkten bekam ich Pr ( Y.= 1 | X.= 0 ) = 0,1172 . ähnlich,Pr ( Y.= 1 | X.= 0 ) = 0,1492 .
quelle