Warum ist es schwierig, Unsicherheit in zufällige Effekte einzubeziehen, wenn Vorhersagen aus gemischten Modellen getroffen werden?

10

Auf R-sig-ME gibt es mehrere Themen zum Erhalten von Konfidenzintervallen für Vorhersagen mit lme4und nlmein R. Zum Beispiel hier und hier im Jahr 2010, einschließlich einiger Kommentare von Dougals Bates, einem der Autoren beider Pakete. Ich zögere, ihn wörtlich zu zitieren, aus Angst, dass sie aus dem Zusammenhang gerissen werden, aber ein Kommentar, den er macht, ist

"Sie kombinieren Parameter und Zufallsvariablen in Ihren Vorhersagen, und ich bin mir nicht sicher, was es bedeuten würde, die Variabilität dieser Vorhersagen zu bewerten. Ein Bayesianer kann es vielleicht verstehen, aber ich kann es nicht verstehen. "" https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html

Ich weiß, dass das Bayes'sche glmm-Paket MCMCglmmglaubwürdige Intervalle für Vorhersagen liefern kann.

In letzter Zeit wurde der Entwicklungsversion von lme4on github eine predictMethode gegeben, die jedoch von folgendem Kommentar begleitet wird:

"@note Es gibt keine Option zum Berechnen von Standardfehlern von Vorhersagen, da es schwierig ist, eine effiziente Methode zu definieren, die Unsicherheit in die Varianzparameter einbezieht. Wir empfehlen für diese Aufgabe \ code {\ link {bootMer}}." https://github.com/lme4/lme4/blob/master/R/predict.R

Warum ist es also schwierig, Unsicherheit in zufällige Effekte einzubeziehen, wenn Vorhersagen aus gemischten Modellen in einer frequentistischen Umgebung getroffen werden?

P Sellaz
quelle

Antworten:

4

Ich bin mir über den Kommentar zur Vorhersagemethode nicht sicher, aber ein Hauptproblem hängt mit der Erzeugung leicht interpretierbarer Varianzmaße zusammen, nicht mit Varianzmaßen an sich. Bates kommentiert im ersten Zitat nicht, ob Sie es können, nur was es bedeutet.

Nehmen Sie ein einfaches mehrstufiges Modell eines zweistufigen Entwurfs mit wiederholten Messungen. Angenommen, Sie haben die folgenden Daten, bei denen jede Zeile ein Betreff ist:

Geben Sie hier die Bildbeschreibung ein

Im lmerModell könnte ausgedrückt werden als:

y ~ x + (1|subject)

Sie sagen den y-Wert von x als festen Effekt voraus (die Differenz zwischen A und B); und das Abfangen eines zufälligen Effekts **. Schauen Sie sich das Diagramm genau an und beachten Sie, dass der x-Effekt für jedes Motiv (Steigung jeder Linie) zwar variabel ist, aber im Vergleich zur Variabilität zwischen den Motiven (Höhe jeder Linie) relativ gering ist.

Das Modell analysiert diese beiden Variabilitätssätze und jeder ist sinnvoll. Sie können die zufälligen Effekte verwenden, um die Höhe von Linien vorherzusagen, und Sie können feste Effekte von x verwenden, um Steigungen vorherzusagen. Sie können die beiden sogar kombinieren, um unsere individuellen y-Werte zu berechnen. Was Sie jedoch nicht tun können, ist wirklich etwas Sinnvolles in Bezug auf Ihr Modell zu sagen, wenn Sie die Variabilität von Steigungen und Linienhöhen miteinander kombinieren. Sie müssen über die Variabilität Ihrer Steigungen und Linienhöhen separat sprechen. Das ist ein Merkmal des Modells, keine Haftung.

Sie haben eine Variabilität des Effekts von x, die relativ leicht geschätzt werden kann. Man könnte etwas über ein Konfidenzintervall dazu sagen. Beachten Sie jedoch, dass dieses Konfidenzintervall eine geringe Beziehung zur Vorhersage eines bestimmten y-Werts hat, da der y-Wert durch eine Kombination aus Effekt und Subjektvarianz beeinflusst wird, die sich von der Variabilität des Effekts allein unterscheidet.

Wenn Bates Dinge schreibt, wie Sie sie zitiert haben, denke ich, dass er oft an viel komplexere mehrstufige Designs denkt, die dies nicht einmal annähert. Aber selbst wenn Sie nur dieses einfache Beispiel betrachten, fragen Sie sich, welche Art von wirklicher Bedeutung sich aus der Kombination aller Varianzmaße ergibt.

** Ich habe den festen Effekt des Abfangens der Einfachheit halber ignoriert und ihn einfach als zufälligen Effekt behandelt. Sie könnten ähnliche Schlussfolgerungen aus einem noch einfacheren Modell mit nur einem zufälligen und festen Achsenabschnitt extrahieren, aber ich denke, dass es schwieriger wäre, dies zu vermitteln. Auch in diesem Fall werden der feste Effekt und der zufällige Effekt aus einem bestimmten Grund analysiert und haben unterschiedliche Bedeutungen. Wenn die Variabilität für vorhergesagte Werte wieder zusammengesetzt wird, ist diese Variabilität in Bezug auf das Modell wenig sinnvoll.

John
quelle
Ich höre Sie also sagen, dass dies auf dieselbe alte Säge zurückzuführen ist, bei der es nicht darum geht, nicht sicher zu sein, ob wir die Subjektvarianz als Fehler behandeln oder sie separat partitionieren und so tun wollen, als ob sie nicht existiert? Ist das richtig?
Russellpierce
Ich habe diese alte Säge noch nie gehört. Ich habe noch nie gehört, dass Sie so tun sollten, als gäbe es keine Subjektvarianz. Aber ich nehme an, es hängt mit diesem speziellen Beispiel zusammen. Das Modell analysiert die Varianz. Mit dieser Funktion des Modellierungsprozesses können Sie das Modell verstehen. Wenn Sie die Varianz erneut kombinieren, vereiteln Sie zunächst den Zweck des Modells. Ich sage nicht, ignorieren Sie die Subjektvarianz, nur dass der zufällige Effekt des Subjekts getrennt ist. Vielleicht möchten Sie Blouin & Riopelle (2005) lesen und sehen, wie sich die Bedeutung von SE ändert, wenn Sie Varianz kombinieren.
John
Vielleicht fehlt mir etwas, aber dies scheint den Hin- und Her-Leuten sehr ähnlich zu sein, welche Effektgröße für die ANOVA "Innerhalb von Subjekten / Wiederholten Messungen" am besten geeignet ist und wie diese Konfidenzintervalle am besten aufgezeichnet werden ... aber ich nehme an, nachdem ich Lesen Sie das, worauf Sie mich hingewiesen haben. Ich werde nicht mehr vermissen, was auch immer ich vermisse. :) Vielen Dank.
Russellpierce
Wie ich schon sagte, sie sind verwandt. Ich wusste nicht, dass es ein Hin und Her gibt, würde gerne eine Referenz sehen. Tatsache ist, dass die beiden CIs und Effekte, über die Sie sprechen, unterschiedliche Bedeutungen haben. Sie verwenden also diejenige, die vermittelt, was Sie meinen möchten. Und man muss sie vernünftig erscheinen lassen. [Es ist schwer zu argumentieren (obwohl einige dies getan haben), dass es sinnvoll ist, ein CI, das die Subjektvarianz um einen Mittelwert in ein Design mit wiederholten Messungen einbezieht, zu verwenden und damit etwas über den Effekt wiederholter Messungen zu sagen.]
John
Ich habe in der Literatur nichts gesehen, nur viel informelles Handdrücken und Versuche zu erraten, was der Reviewer du Jour denken wird.
Russellpierce
1

Ich habe mich lange über die scheinbar verbreitete Überzeugung gewundert, dass es einen grundlegenden Unterschied zwischen festen und zufälligen Effekten für (im Allgemeinen nichtlineare) Modelle mit gemischten Effekten gibt. Dieser Glaube wird zum Beispiel von Bates in der folgenden Antwort angegeben

https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html

Bates gibt klar an, dass er glaubt, dass es einen grundlegenden Unterschied zwischen festen und zufälligen Effekten gibt, so dass sie nicht kombiniert werden können. Ich denke, er liegt falsch und ich hoffe, einige Leser von einer alternativen Sichtweise zu überzeugen. Ich verfolge einen frequentistischen Ansatz. Ich möchte also einen Begriff der Profilwahrscheinlichkeit für eine Funktion sowohl der festen als auch der zufälligen Effekte definieren. Um die Diskussion zu motivieren, nehmen wir an, wir haben ein Zwei-Parameter-Modell mit den Parametern x und u (bisher nichts über zufällige Effekte). Sei die Wahrscheinlichkeitsfunktion, bei der wir jeden Verweis auf die Daten unterdrücken. Sei eine beliebige (schöne) Funktion von x und u. Die Profilwahrscheinlichkeit für die Funktion ist gegeben durchg ( x , u ) P g ( t ) gL(x,u)g(x,u)Pg(t)g

Pg(t)=maxx,u{L(x,u) | g(x,u)=t}\eqno(1)

Ich glaube, dass niemand damit streiten würde. Nehmen wir nun an, wir haben eine vorherige Wahrscheinlichkeitsverteilung für u. Dann würde ich behaupten, dass die Profilwahrscheinlichkeit für immer noch sinnvoll ist, aber wir sollten (1) ändern, indem wir den Prior einbeziehen.p(u)g

Pg(t)=maxx,u{L(x,u)p(u) | g(x,u)=t}\eqno(2)
Beachten Sie, dass ein Parameter mit ist a prior ist es genau das gleiche wie das, was als zufälliger Effekt bezeichnet wird. Warum denken viele Leute, dass zufällige Effektparameter irgendwie unterschiedlich sind? Der Unterschied, den ich denke, ergibt sich aus der üblichen Praxis der Parameterschätzung für sie. Was zufällige Effekte "anders" macht, ist, dass es in vielen Modellen viele davon gibt. Um nützliche Schätzungen für die festen Effekte (oder andere Parameter) zu erhalten, müssen die zufälligen Effekte auf andere Weise behandelt werden. Wir integrieren sie aus dem Modell. Im obigen Modell würden wir die Wahrscheinlichkeit wobei Nun dasuF(x)
F(x)=L(x,u)p(u)du
usind weg. Wenn wir also nur haben, scheint es keinen Sinn zu machen, über die Profilwahrscheinlichkeit für eine Funktion zu sprechen .F(x)g(x,u)

Um Informationen über die Funktion , sollten wir nicht über den Parameter . Aber was passiert in dem Fall, in dem es viele zufällige Effektparameter gibt? Dann behaupte ich, wir sollten uns über "die meisten" integrieren, aber nicht alle in einem Sinne, den ich präzisieren werde. Um die Konstruktion zu motivieren, gebe es zufällige Effekte . Betrachten Sie den Sonderfall, in dem die Funktion nur von abhängt und tatsächlich die einfachste vorstellbare Funktion ist, . Integriere über die zufälligen Effekte , um zu erhalten g(x,u)unu=(u1,u2,...,un1,un)g(x,u)ung(x,u)=unu1,u2,...,un1

F(x,un)=L(x,u1,...,un)p(u1,...,un))du1du2...dun1\eqno(4)
wie zuvor wir können die Profilwahrscheinlichkeit Verallgemeinern damit es für eine beliebige Funktion Sinn macht . , dass die Definition von in dieselbe ist wie Um diese Anmerkung zu sehen, ist für den einfachen Fall , dasselbe wie
Pg(t)=maxx,un{F(x,un)|un=t}\eqno(3)
(3)g(x,u)F(x,un)(4)
F(x,s)=limϵ01ϵ{(x,un)|sϵ/2<g(x,un)<s+ϵ/2}L(x,u1,...,un)p(u1,...,un))du1du2...dun\eqno(5)
g(x,u)=un(5)
F(x,s)=limϵ01ϵ{(x,un)|sϵ/2<un<s+ϵ/2}F(x,un)dun\eqno(6)

Für eine allgemeine Funktion bilden wir die durch definierte Funktion und berechnen die Profilwahrscheinlichkeit g(x,u)F(x,s)(5)

Pg(s)=maxx,u{F(x,s)|g(x,u)=s}\eqno(3)

Diese Profilwahrscheinlichkeit ist ein genau definiertes Konzept und steht für sich allein. Um jedoch in der Praxis nützlich zu sein, muss man in der Lage sein, seinen Wert zumindest ungefähr zu berechnen. Ich glaube, dass für viele Modelle die Funktion mit einer Variante der Laplace-Näherung gut genug approximiert werden kann. Definieren Sie durch Sei H der Hessische des Logs der Funktion in Bezug auf die Parameter und .F(x,s)x^(s),u^(s)

x^(s),u^(s)=maxx,u{L(x,u)p(u) | g(x,u)=s}
L(x,u)p(u)xu

Die Niveausätze von sind dimensionale Untervielfalt eines dimensionalen Raums, in dem es feste Effekte und zufällige Effekte gibt. Wir müssen eine Form über diesen Verteiler integrieren, wobei alles bei linearisiert ist. Dies beinhaltet ein bisschen elementare Differentialgeometrie. Angenommen, Durch Umparametrieren können wir annehmen, dass und . Dann betrachten Sie die Karte gm+n1n+mmnndu1du2dunx^(s),u^(s)gxn(x^(s),u^(s))0x^(s)=0u^(s)=0

(x1,x2,,xm1,u1,u2,,un)(x1,x2,,xm1,i=1m1gxixii=1nguiuigxm,u1,u2,,un)
wobei verwendet wird bezeichnen die partielle Ableitung von in Bezug auf die am Maximalpunkt ausgewertet wird. Dies ist eine lineare Abbildung des Dimensionsraums auf den Tangentenraum des Niveausatzes von . Wir können es verwenden, um das gewünschte Integral zu berechnen. Erstens ist der Rückzug der 1 Formen einfach sie selbst.gxigxim+n1gdui

Der Rückzug des Hessischen ist die quadratische Form

Ti,j=Hi+m,j+m+guigujgxm2Hm,m\rm for 1<=i,j<=n

Das Integral kann also über die Laplace-Näherung berechnet (oder angenähert) werden. Dies ist die übliche Formel, die den Logarithmus der Determinante von , der über die Cholesky-Zerlegung berechnet wird. Der Wert der Laplace-Näherung des Integrals ist wobeiist die Determinante. Wir müssen uns noch mit der Breite des Level-Sets von als befassen. Um dies zuerst zu bestellen, hat dies den Wert Dabei ist der Vektor partieller Ableitungen von T

L(x^(s),u^(s))|T|12
||gϵ0ϵ/g(x^(s),u^(s))g(x^(s),u^(s)))g (gx1,gx2,,gxm,gu1,gu2,,gun) so dass der Wahrscheinlichkeitswert auf dem von angegeben wird durch Dies ist die richtige Näherung zur Berechnung der Profilwahrscheinlichkeit.g
L(x^(s),u^(s))|T|12g(x^(s),u^(s))
Dave Fournier
quelle