Ich verwende ein gemischtes Modell in R
( lme4
), um einige Messwiederholungsdaten zu analysieren. Ich habe eine Reaktionsvariable (Fasergehalt von Kot) und 3 feste Effekte (Körpermasse usw.). Meine Studie hat nur 6 Teilnehmer mit jeweils 16 Wiederholungsmessungen (obwohl zwei nur 12 Wiederholungen haben). Die Versuchspersonen sind Eidechsen, denen in verschiedenen "Behandlungen" verschiedene Futterkombinationen verabreicht wurden.
Meine Frage ist: Kann ich die Betreff-ID als zufälligen Effekt verwenden?
Ich weiß, dass dies die übliche Vorgehensweise bei Longitudinal-Mixed-Effects-Modellen ist, um der zufällig ausgewählten Natur der Probanden und der Tatsache Rechnung zu tragen, dass Beobachtungen innerhalb von Probanden enger korrelieren als diejenigen zwischen Probanden. Wenn Sie die Subjekt-ID jedoch als zufälligen Effekt behandeln, müssen Sie einen Mittelwert und eine Varianz für diese Variable schätzen.
Reicht dies aus, um den Mittelwert und die Varianz genau zu charakterisieren, da ich nur 6 Probanden habe (6 Stufen dieses Faktors)?
Hilft in dieser Hinsicht die Tatsache, dass ich für jedes Thema einige wiederholte Messungen habe (ich sehe nicht, wie wichtig das ist)?
Wenn ich die Betreff-ID nicht als zufälligen Effekt verwenden kann, kann ich dann durch Einbeziehen der ID als festen Effekt überprüfen, ob ich wiederholte Messungen durchgeführt habe.
Bearbeiten: Ich möchte nur klarstellen, dass wenn ich sage "Kann ich" Betreff-ID als zufälligen Effekt verwenden, ich meine "ist es eine gute Idee zu". Ich weiß, dass ich das Modell mit einem Faktor von nur 2 Stufen ausstatten kann, aber das wäre doch nicht zu rechtfertigen. Ich frage, wann es sinnvoll wird, Themen als zufällige Effekte zu behandeln. In der Literatur wird anscheinend davon ausgegangen, dass 5-6 Stufen eine Untergrenze sind. Es scheint mir, dass die Schätzungen des Mittelwerts und der Varianz des Zufallseffekts nicht sehr genau wären, bis es 15+ Faktorstufen gäbe.
quelle
Angrist und Pischkes "Mostly Harmless Econometrics" haben einen Abschnitt mit dem Titel "Weniger als 42 Cluster", in dem sie halb im Scherz sagen:
Nach der Annahme, dass die Antwort auf das Leben, das Universum und alles 42 ist, lautet die Frage daher: Wie viele Cluster reichen aus, um mit der Standard-Clusteranpassung [ähnlich dem Varianzschätzer in GEE] zuverlässig zu schließen?
Mein Ausbilder für Ökonometrie beantwortete Fragen wie Ihre wie folgt: "Amerika ist ein freies Land. Sie können tun, was Sie wollen. Wenn Sie jedoch Ihre Arbeit veröffentlichen möchten, müssen Sie in der Lage sein, das zu verteidigen, was Sie getan haben. " Mit anderen Worten, Sie werden wahrscheinlich in der Lage sein, R- oder Stata- oder HLM- oder Mplus- oder SAS PROC GLIMMIX-Code mit 6 Betreffs auszuführen (und zu diesen alternativen Paketen zu wechseln, wenn eines Ihrer Wahl dies nicht ausführt) sehr schwierige Zeit, diesen Ansatz zu verteidigen und asymptotische Tests zu rechtfertigen.
Ich glaube, dass standardmäßig das Einschließen einer Variablen als zufällige Steigung auch das Einschließen dieses Effekts als festen Effekt impliziert, und dass Sie durch viele Syntaxrahmen springen müssen, wenn Sie dies nur als zufälligen Effekt mit dem Mittelwert von haben möchten Null. Das ist eine vernünftige Entscheidung, die die Softwareentwickler für Sie getroffen haben.
quelle
Sie können auch ein Bayes'sches Mischmodell verwenden. In diesem Fall wird die Unsicherheit bei der Schätzung der zufälligen Effekte bei der Berechnung der glaubwürdigen 95% -Vorhersageintervalle vollständig berücksichtigt. Das neue R-Paket
brms
und die neue R- Funktion ermöglichenbrm
zum Beispiel einen sehr einfachen Übergang von einemlme4
frequentistischen gemischten Modell zu einem Bayes-Modell, da die Syntax nahezu identisch ist.quelle
Ich würde kein Zufallseffektmodell mit nur 6 Ebenen verwenden. Modelle, die einen 6-stufigen Zufallseffekt verwenden, können manchmal mit vielen statistischen Programmen ausgeführt werden und bieten manchmal unvoreingenommene Schätzungen, aber:
Dieses Problem wird in den meisten Standardlehrbüchern auf diesem Gebiet behandelt, und Sie haben es in Ihrer Frage sozusagen angesprochen. Ich glaube nicht, dass ich Ihnen neue Informationen gebe.
quelle
lme4
gemischten Modellen gehabt und sie häufig mit ähnlichen Stichprobengrößen wie das OP ausgeführt (ich arbeite auch mit Biologie-Datensätzen).Die ursprüngliche Frage ist lange her, aber ich dachte, ich könnte ein paar Punkte hinzufügen, die für die Modellauswahl relevant sind.
1 - Solange das Modell identifiziert ist (dh Sie haben Freiheitsgrade im Parameterraum), sollten Sie VERSUCHEN können, das Modell anzupassen. Je nach Optimierungsmethode kann das Modell konvergieren oder nicht. Auf keinen Fall würde ich versuchen, mehr als 1 oder 2 zufällige Effekte und definitiv nicht mehr als 1 ebenenübergreifende Interaktion einzubeziehen. Im konkreten Fall des hier vorgestellten Problems reicht die Gruppengröße 6 möglicherweise nicht aus, um hinreichend genaue Schätzungen vorzunehmen, wenn wir eine Wechselwirkung zwischen eidechsenspezifischen Merkmalen (z. B. Alter, Größe usw.) und Behandlungs- / Messmerkmalen vermuten.
2 - Wie in einigen Antworten erwähnt, kann Konvergenz ein Problem sein. Ich habe jedoch die Erfahrung gemacht, dass sozialwissenschaftliche Daten aufgrund von Messproblemen ein großes Konvergenzproblem aufweisen, während Biowissenschaften und insbesondere biochemische Wiederholungsmessungen wesentlich kleinere Standardfehler aufweisen. Es hängt alles vom Prozess der Datengenerierung ab. Bei sozialen und wirtschaftlichen Daten müssen wir auf verschiedenen Abstraktionsebenen arbeiten. In biologischen und chemischen und mit Sicherheit astronomischen Daten ist ein Messfehler weniger ein Problem.
quelle