Dies ist eher eine konzeptionelle Frage, aber während ich sie verwende, werde R
ich auf die Pakete in verweisen R
. Wenn das Ziel darin besteht, ein lineares Modell für Vorhersagezwecke anzupassen und dann Vorhersagen zu treffen, bei denen die zufälligen Effekte möglicherweise nicht verfügbar sind, hat die Verwendung eines Modells mit gemischten Effekten einen Vorteil, oder sollte stattdessen ein Modell mit festen Effekten verwendet werden?
Wenn ich zum Beispiel Daten zu Gewicht und Größe mit einigen anderen Informationen habe und das folgende Modell mit verwende lme4
, wobei das Subjekt ein Faktor mit Ebenen ist ( ):n = n o . s a m p l e s
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
Dann möchte ich in der Lage sein, das Gewicht des Modells anhand neuer Größen- und Altersdaten vorherzusagen. Natürlich wird die Varianz nach Subjekten in den Originaldaten im Modell erfasst. Ist es jedoch möglich, diese Informationen für die Vorhersage zu verwenden? Angenommen, ich habe einige neue Daten zu Größe und Alter und möchte das Gewicht vorhersagen. Ich kann dies wie folgt tun:
predict(mod1,newdata=newdf) # newdf columns for height, age, subject
Dies wird verwendet predict.merMod
, und ich kann entweder eine Spalte für (neue) Themen einfügen newdf
oder festlegen re.form =~0
. In erster Linie ist nicht klar, was das Modell mit den "neuen" Subjektfaktoren macht, und in der zweiten Instanz wird die im Modell erfasste Varianz nach Subjekten für die Vorhersage einfach ignoriert (gemittelt)?
In beiden Fällen scheint mir ein lineares Modell mit festem Effekt geeigneter zu sein. Wenn mein Verständnis korrekt ist, sollte ein Modell mit festem Effekt dieselben Werte wie das gemischte Modell vorhersagen, wenn der zufällige Effekt nicht für die Vorhersage verwendet wird. Sollte dies der Fall sein? Darin R
ist zum Beispiel nicht:
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject
liefert unterschiedliche Ergebnisse für:
mod2 <- lm(weight ~ height + age, data=df)
predict(mod2,newdata=newdf) # newdf columns for height, age
quelle
Antworten:
Einfaches Gedankenexperiment: Sie haben Gewicht und Größe von 5 Säuglingen nach der Geburt gemessen. Und Sie haben es nach zwei Jahren wieder an denselben Babys gemessen. In der Zwischenzeit haben Sie fast jede Woche das Gewicht und die Größe Ihrer kleinen Tochter gemessen, was zu 100 Wertepaaren für sie führte. Wenn Sie ein Modell mit gemischten Effekten verwenden, gibt es kein Problem. Wenn Sie ein Modell mit festen Effekten verwenden, legen Sie ein übermäßiges Gewicht auf die Messungen Ihrer Tochter, bis zu einem Punkt, an dem Sie fast die gleiche Modellanpassung erhalten würden, wenn Sie nur Daten von ihr verwenden würden. Daher ist es nicht nur für die Schlussfolgerung wichtig, wiederholte Messungen oder Unsicherheitsstrukturen korrekt zu modellieren, sondern auch für die Vorhersage. Im Allgemeinen erhalten Sie nicht dieselben Vorhersagen aus einem Modell mit gemischten Effekten und aus einem Modell mit festen Effekten (mit verletzten Annahmen).
Sie können nicht vorhersagen, welche Themen nicht Teil der ursprünglichen (Trainings-) Daten waren. Wieder ein Gedankenexperiment: Das neue Thema ist fettleibig. Wie kann das Modell wissen, dass es sich am oberen Ende der Verteilung der zufälligen Effekte befindet?
Wenn ich dich richtig verstehe, dann ja. Das Modell gibt Ihnen eine Schätzung des erwarteten Werts für die Bevölkerung (beachten Sie, dass diese Schätzung immer noch von den ursprünglichen Probanden abhängig ist).
quelle
You can't predict for subjects which were not part of the original (training) data
; Erlaubtre.form=~0
und prognostiziert ich nicht genau den erwarteten Wert der Bevölkerung, um genau das zu tun? Zugegeben, das Modell verwendet keine subjektspezifischen Informationen in der Vorhersage, aber es ist fair zu sagen, dass die Schätzung aus einem Mischeffektmodell immer noch genauer ist als die aus einem äquivalenten Modell mit festem Effekt, bei dem die subjektspezifische Variation war ignoriert?re.form=~0
gibt Ihnen die Vorhersage auf Bevölkerungsebene, was das Beste ist, was Sie für neue Themen tun können.glmmLasso
Pakets in R. Der Autor des Pakets, Andreas Groll, erklärte, dass das glmmLasso-Verfahren nur die festen Effekte verwendet, um Vorhersagen für neue Themen zu treffen, und feste + zufällige Effekte für bestehende Themen im nächsten Zeitraum.