Warum führt das Bootstrapping der Residuen aus einem Modell mit gemischten Effekten zu antikonservativen Konfidenzintervallen?

11

Ich beschäftige mich normalerweise mit Daten, bei denen mehrere Personen unter zwei oder mehr Bedingungen jeweils mehrmals gemessen werden. Ich habe kürzlich mit der Modellierung gemischter Effekte gespielt, um Beweise für Unterschiede zwischen Bedingungen zu bewerten, wobei die Modellierung individualals zufälliger Effekt erfolgt. Um die Unsicherheit bezüglich der Vorhersagen aus einer solchen Modellierung zu visualisieren, habe ich Bootstrapping verwendet, bei dem bei jeder Iteration des Bootstraps sowohl Individuen als auch Beobachtungen innerhalb von Bedingungen innerhalb von Individuen mit Ersatz abgetastet werden und ein neues Mischeffektmodell berechnet wird, aus dem Vorhersagen berechnet werden werden erhalten. Dies funktioniert gut für Daten, bei denen ein Gaußscher Fehler angenommen wird. Wenn die Daten jedoch binomisch sind, kann das Bootstrapping sehr lange dauern, da jede Iteration ein relativ rechenintensives Binomial-Mischeffektmodell berechnen muss.

Ein Gedanke, den ich hatte, war, dass ich möglicherweise die Residuen des ursprünglichen Modells verwenden und dann diese Residuen anstelle der Rohdaten im Bootstrapping verwenden könnte, wodurch ich bei jeder Iteration des Bootstraps ein Gauß-Mischeffektmodell berechnen könnte. Das Hinzufügen der ursprünglichen Vorhersagen aus dem Binomialmodell der Rohdaten zu den Bootstrap-Vorhersagen aus Residuen ergibt einen 95% CI für die ursprünglichen Vorhersagen.

Ich habe jedoch kürzlich eine einfache Bewertung dieses Ansatzes codiert , bei der kein Unterschied zwischen zwei Bedingungen modelliert wurde und berechnet wurde, wie oft ein 95% -Konfidenzintervall keine Null enthält, und ich habe festgestellt, dass das oben auf Residuen basierende Bootstrapping-Verfahren ziemlich stark gegen konservative Intervalle (sie schließen in mehr als 5% der Fälle Null aus). Darüber hinaus habe ich dann (ähnliche Verknüpfung wie zuvor) eine ähnliche Bewertung dieses Ansatzes codiert, die auf Daten angewendet wurde, die ursprünglich gaußsch waren, und ähnliche (wenn auch nicht so extreme) antikonservative CIs erhalten. Irgendeine Idee, warum das so sein könnte?

Mike Lawrence
quelle
hm, ich habe gerade bemerkt, dass ich im Datengenerierungscode für beide Fälle keine Variabilität zwischen Individuen hinzugefügt habe, die man normalerweise eliminieren möchte, indem man Individuen als zufällige Effekte modelliert. Ich werde sehen, ob das Hinzufügen dieser Variabilität das Ergebnis ändert. zurück in ein paar Stunden ...
Mike Lawrence
Wenn ich mich richtig erinnere, bringt Bootstrap die Schätzung näher an die wahre Bevölkerungsschätzung. Es sagt nichts über das Konfidenzintervall aus. (vgl. Kesar Singh, Zur asymptotischen Genauigkeit von Efrons Bootstrap. Ann. Statist., 1981, 9, 1187-1195)
suncoolsu
@me: Ich kann bestätigen, dass das Hinzufügen von Variabilität zwischen Personen in der Datengenerierungsfunktion die Leistung des Bootstraps nicht verbessert. Ich habe den Code hochgeladen, mit dem ich dies bestätigt habe, und zwar im Kern des ursprünglichen Beitrags.
Mike Lawrence
@suncoolsu: Ich bin mir ziemlich sicher, dass Bootstrap-Konfidenzintervalle seit geraumer Zeit Standard sind. Efron erwähnt sie in seinem 1978 erschienenen Artikel, in dem das Bootstrap-Verfahren allgemein beschrieben wird. In den 80er und 90er Jahren hatte er eine Reihe von Artikeln über Optimierungen des Bootstrap-Verfahrens für genauere Konfidenzintervalle (Bias-Korrektur, Beschleunigung, Studentisierung usw.).
Mike Lawrence
1
Haben Sie das folgende Papier von Morris gelesen: "Die BLUPs sind nicht die besten, wenn es um Bootstrapping geht". Es kann sich auf Ihre Arbeit beziehen. Link
Juli

Antworten:

7

Denken Sie daran, dass alle Bootstrap-Konfidenzintervalle nur asymptotisch auf dem angegebenen Konfidenzniveau liegen. Es gibt auch eine Reihe möglicher Methoden zum Auswählen von Bootstrap-Konfidenzintervallen Efrons Perzentilmethode, Halls Perzentilmethode, Doppel-Bootstrap, Bootstrap t, gekippter Bootstrap, BC, BCa und möglicherweise einige weitere. Sie haben uns nicht mitgeteilt, welche Methode Sie verwenden. Schenkers Artikel in JASA 1985 zeigte, dass für bestimmte Chi-Quadrat-Verteilungen das BC-Bootstrap-Konfidenzintervall den angegebenen Prozentsatz unterdeckte. Bei Problemen mit kleinen Stichproben kann dieses Problem schwerwiegend sein. LaBudde und ich haben zwei Artikel, die zeigen, wie in kleinen Stichproben sogar BCa eine sehr schlechte Abdeckung aufweisen kann, wenn eine Varianz aus einer logarithmischen Normalverteilung geschätzt wird, und ein ähnliches Problem besteht beim Testen der Gleichheit zweier Varianzen. Dies ist nur für ein einfaches Problem. Ich gehe davon aus, dass das Gleiche mit Residuen von gemischten Modellen passieren kann. In unserem neuen Buch "Eine Einführung in Bootstrap-Methoden mit Anwendungen für R", das 2011 von Wiley veröffentlicht wurde, behandeln wir dieses Thema in Abschnitt 3.7 und geben Referenzen. Die Überraschung ist, dass die Perzentilmethode manchmal besser ist als die genaue BCa-Methode höherer Ordnung, wenn die Stichprobengröße klein ist.

Michael R. Chernick
quelle