Warum würden Sie aus einem Mischeffektmodell vorhersagen, ohne zufällige Effekte für die Vorhersage einzubeziehen?

10

Dies ist eher eine konzeptionelle Frage, aber während ich sie verwende, werde Rich auf die Pakete in verweisen R. Wenn das Ziel darin besteht, ein lineares Modell für Vorhersagezwecke anzupassen und dann Vorhersagen zu treffen, bei denen die zufälligen Effekte möglicherweise nicht verfügbar sind, hat die Verwendung eines Modells mit gemischten Effekten einen Vorteil, oder sollte stattdessen ein Modell mit festen Effekten verwendet werden?

Wenn ich zum Beispiel Daten zu Gewicht und Größe mit einigen anderen Informationen habe und das folgende Modell mit verwende lme4, wobei das Subjekt ein Faktor mit Ebenen ist ( ):n = n o . s a m p l e snn=no.samples

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

Dann möchte ich in der Lage sein, das Gewicht des Modells anhand neuer Größen- und Altersdaten vorherzusagen. Natürlich wird die Varianz nach Subjekten in den Originaldaten im Modell erfasst. Ist es jedoch möglich, diese Informationen für die Vorhersage zu verwenden? Angenommen, ich habe einige neue Daten zu Größe und Alter und möchte das Gewicht vorhersagen. Ich kann dies wie folgt tun:

predict(mod1,newdata=newdf) # newdf columns for height, age, subject

Dies wird verwendet predict.merMod, und ich kann entweder eine Spalte für (neue) Themen einfügen newdfoder festlegen re.form =~0. In erster Linie ist nicht klar, was das Modell mit den "neuen" Subjektfaktoren macht, und in der zweiten Instanz wird die im Modell erfasste Varianz nach Subjekten für die Vorhersage einfach ignoriert (gemittelt)?

In beiden Fällen scheint mir ein lineares Modell mit festem Effekt geeigneter zu sein. Wenn mein Verständnis korrekt ist, sollte ein Modell mit festem Effekt dieselben Werte wie das gemischte Modell vorhersagen, wenn der zufällige Effekt nicht für die Vorhersage verwendet wird. Sollte dies der Fall sein? Darin Rist zum Beispiel nicht:

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject

liefert unterschiedliche Ergebnisse für:

mod2 <- lm(weight ~ height + age, data=df)

predict(mod2,newdata=newdf) # newdf columns for height, age


Stammesseele
quelle
1
Es könnte sein, dass Sie für eine neue Gruppe vorhersagen möchten, die nicht in der Schätzung enthalten war
kjetil b halvorsen
Ja, aber warum sollte man sich in diesem Fall mit einem Mischeffektmodell beschäftigen? Was gibt es für ein Modell mit festen Effekten, wenn Sie die zufälligen Effekte in der Vorhersage ignorieren?
Tribalsoul
1
Nun, es könnte bessere Schätzer geben, weil Sie ein besseres (korrekteres) Modell der Fehlerstruktur haben
kjetil b halvorsen

Antworten:

5

Einfaches Gedankenexperiment: Sie haben Gewicht und Größe von 5 Säuglingen nach der Geburt gemessen. Und Sie haben es nach zwei Jahren wieder an denselben Babys gemessen. In der Zwischenzeit haben Sie fast jede Woche das Gewicht und die Größe Ihrer kleinen Tochter gemessen, was zu 100 Wertepaaren für sie führte. Wenn Sie ein Modell mit gemischten Effekten verwenden, gibt es kein Problem. Wenn Sie ein Modell mit festen Effekten verwenden, legen Sie ein übermäßiges Gewicht auf die Messungen Ihrer Tochter, bis zu einem Punkt, an dem Sie fast die gleiche Modellanpassung erhalten würden, wenn Sie nur Daten von ihr verwenden würden. Daher ist es nicht nur für die Schlussfolgerung wichtig, wiederholte Messungen oder Unsicherheitsstrukturen korrekt zu modellieren, sondern auch für die Vorhersage. Im Allgemeinen erhalten Sie nicht dieselben Vorhersagen aus einem Modell mit gemischten Effekten und aus einem Modell mit festen Effekten (mit verletzten Annahmen).

und ich kann entweder eine Spalte für (neue) Themen in newdf aufnehmen

Sie können nicht vorhersagen, welche Themen nicht Teil der ursprünglichen (Trainings-) Daten waren. Wieder ein Gedankenexperiment: Das neue Thema ist fettleibig. Wie kann das Modell wissen, dass es sich am oberen Ende der Verteilung der zufälligen Effekte befindet?

Wird die im Modell erfasste Varianz nach Subjekten für die Vorhersage einfach ignoriert (gemittelt)

Wenn ich dich richtig verstehe, dann ja. Das Modell gibt Ihnen eine Schätzung des erwarteten Werts für die Bevölkerung (beachten Sie, dass diese Schätzung immer noch von den ursprünglichen Probanden abhängig ist).

Roland
quelle
1
Vielen Dank für die klare Erklärung und das Beispiel, das alles macht Sinn. Wo Sie jedoch angeben You can't predict for subjects which were not part of the original (training) data; Erlaubt re.form=~0und prognostiziert ich nicht genau den erwarteten Wert der Bevölkerung, um genau das zu tun? Zugegeben, das Modell verwendet keine subjektspezifischen Informationen in der Vorhersage, aber es ist fair zu sagen, dass die Schätzung aus einem Mischeffektmodell immer noch genauer ist als die aus einem äquivalenten Modell mit festem Effekt, bei dem die subjektspezifische Variation war ignoriert?
Tribalsoul
1
Das feste Modell ist nicht anwendbar, da seine Annahmen verletzt werden. Sie müssen ein Modell verwenden, das eine Abhängigkeitsstruktur enthält. re.form=~0gibt Ihnen die Vorhersage auf Bevölkerungsebene, was das Beste ist, was Sie für neue Themen tun können.
Roland
Ich hatte die gleiche Frage bei der Verwendung des glmmLasso Pakets in R. Der Autor des Pakets, Andreas Groll, erklärte, dass das glmmLasso-Verfahren nur die festen Effekte verwendet, um Vorhersagen für neue Themen zu treffen, und feste + zufällige Effekte für bestehende Themen im nächsten Zeitraum.
RobertF