Intro
Ich habe Teilnehmer, die unter zwei Bedingungen wiederholt kontaminierte Oberflächen mit E. coli berühren ( A = Handschuhe tragen, B = keine Handschuhe). Ich möchte wissen, ob es einen Unterschied zwischen der Menge an Bakterien auf ihren Fingerspitzen mit und ohne Handschuhe gibt, aber auch zwischen der Anzahl der Kontakte. Beide Faktoren sind innerhalb des Teilnehmers.
Experimentelle Methode:
Die Teilnehmer (n = 35) berühren jedes Quadrat einmal mit demselben Finger für maximal 8 Kontakte (siehe Abbildung a).
Ich wische dann den Finger des Teilnehmers ab und messe die Bakterien an der Fingerspitze nach jedem Kontakt. Sie berühren dann mit einem neuen Finger eine andere Anzahl von Oberflächen usw. von 1 bis 8 Kontakten (siehe Abbildung b).
Hier sind die realen Daten: reale Daten
Die Daten sind nicht normal, siehe unten unter Randverteilung von Bakterien | NumberContacts. x = Bakterien. Jede Facette hat eine andere Anzahl von Kontakten.
MODELL
Versuch von lme4 :: glmer basierend auf Amöbenvorschlägen unter Verwendung von Gamma (link = "log") und Polynom für NumberContacts:
cfug<-glmer(CFU ~ Gloves + poly(NumberContacts,2) + (-1+NumberContacts|Participant),
data=(K,CFU<4E5),
family=Gamma(link="log")
)
plot(cfug)
NB. Gamma (link = "inverse") wird nicht ausgeführt und sagt, dass die PIRLS-Halbierung die Abweichung nicht verringern konnte.
Ergebnisse:
Angepasst gegen Residuen für cfug
qqp (Resid (cfug))
Frage:
Ist mein Glmer-Modell richtig definiert, um die zufälligen Effekte jedes Teilnehmers und die Tatsache zu berücksichtigen, dass jeder Experiment A gefolgt von Experiment B durchführt ?
Zusatz:
Autokorrelation scheint zwischen den Teilnehmern zu bestehen. Dies liegt wahrscheinlich daran, dass sie nicht am selben Tag getestet wurden und der Bakterienkolben mit der Zeit wächst und abnimmt. Ist das wichtig?
acf (CFU, lag = 35) zeigt eine signifikante Korrelation zwischen einem Teilnehmer und dem nächsten.
NumberContacts
einen numerischen Faktor verwenden und quadratische / kubische Polynomterme einschließen. Oder schauen Sie sich Generalized Additive Mixed Models an.CFU ~ Gloves * poly(NumberContacts,2) + (Gloves * poly(NumberContacts,2) | Participant)
oder so?CFU ~ Gloves * poly(NumberContacts,2) + (Gloves + poly(NumberContacts,2) | Participant)
oder vielleicht die Handschuhe von dort zu entfernenCFU ~ Gloves * poly(NumberContacts,2) + (poly(NumberContacts,2) | Participant)
...Gloves * poly(NumberContacts,2) + (poly(NumberContacts,2) | Participant)
ist ein ziemlich anständiges Modell.Antworten:
Einige Diagramme zum Erkunden der Daten
Unten sind acht, eine für jede Anzahl von Oberflächenkontakten, xy-Diagramme, die Handschuhe gegen keine Handschuhe zeigen.
Jedes Individuum ist mit einem Punkt versehen. Der Mittelwert sowie die Varianz und Kovarianz sind mit einem roten Punkt und der Ellipse angegeben (Mahalanobis-Abstand entspricht 97,5% der Bevölkerung).
Die kleine Korrelation zeigt, dass es tatsächlich einen zufälligen Effekt von den Individuen gibt (wenn es keinen Effekt von der Person gab, sollte es keine Korrelation zwischen den gepaarten Handschuhen und keinen Handschuhen geben). Dies ist jedoch nur ein kleiner Effekt, und eine Person kann unterschiedliche zufällige Effekte für "Handschuhe" und "keine Handschuhe" haben (z. B. kann die Person für alle unterschiedlichen Kontaktpunkte durchweg höhere / niedrigere Werte für "Handschuhe" als "keine Handschuhe" haben). .
Unterhalb des Diagramms befinden sich separate Diagramme für jede der 35 Personen. Die Idee dieses Diagramms ist es, zu sehen, ob das Verhalten homogen ist und welche Art von Funktion geeignet erscheint.
Beachten Sie, dass das "ohne Handschuhe" rot ist. In den meisten Fällen ist die rote Linie höher, mehr Bakterien für die Fälle "ohne Handschuhe".
Ich glaube, dass eine lineare Darstellung ausreichen sollte, um die Trends hier zu erfassen. Der Nachteil des quadratischen Diagramms besteht darin, dass die Koeffizienten schwieriger zu interpretieren sind (Sie werden nicht direkt sehen, ob die Steigung positiv oder negativ ist, da sowohl der lineare Term als auch der quadratische Term einen Einfluss darauf haben).
Aber was noch wichtiger ist, Sie sehen, dass die Trends zwischen den verschiedenen Individuen sehr unterschiedlich sind und es daher nützlich sein kann, einen zufälligen Effekt nicht nur für den Achsenabschnitt, sondern auch für die Steigung des Individuums hinzuzufügen.
Modell
Mit dem Modell unten
.
Das gibt
Code, um Diagramme zu erhalten
Chemometrie :: drawMahal-Funktion
5 x 7 Grundstück
2 x 4 Grundstück
quelle
Zur Frage , ob Gebrauch
MASS:glmmPQL
oderlme4:glmer
für Ihr Modell, ist mein Verständnis , dass diese beiden Funktionen werden das gleiche Modell passen (so lange , wie Sie die Modellgleichung, die Verteilung und die Verknüpfungsfunktion gleich eingestellt) , aber sie verwenden verschiedene Schätzmethoden die Passform zu finden. Ich könnte mich irren, aber mein Verständnis aus der Dokumentation ist, dassglmmPQL
die bestrafte Quasi-Wahrscheinlichkeit verwendet wird, wie in Wolfinger und O'Connell (1993) beschrieben , währendglmer
die Gauß-Hermite-Quadratur verwendet wird. Wenn Sie sich darüber Sorgen machen, können Sie Ihr Modell mit beiden Methoden anpassen und überprüfen, ob sie dieselben Koeffizientenschätzungen liefern. Auf diese Weise können Sie sicherer sein, dass der Anpassungsalgorithmus zu den tatsächlichen MLEs der Koeffizienten konvergiert hat.Diese Variable hat eine natürliche Reihenfolge, die aus Ihren Plots hervorgeht und eine reibungslose Beziehung zur Antwortvariablen aufweist, sodass Sie sie vernünftigerweise als numerische Variable behandeln können. Wenn Sie einbeziehen, werden
factor(NumberContacts)
Sie seine Form nicht einschränken und Sie werden nicht viele Freiheitsgrade verlieren. Sie können die Interaktion sogar nutzen,Gloves*factor(NumberContacts)
ohne zu viele Freiheitsgrade zu verlieren. Es ist jedoch zu überlegen, ob die Verwendung einer Faktorvariablen eine Überanpassung der Daten beinhalten würde. Angesichts der Tatsache, dass Ihr Diagramm eine ziemlich glatte Beziehung aufweist, würde eine einfache lineare Funktion oder ein Quadrat gute Ergebnisse erzielen, ohne dass eine Überanpassung erforderlich ist.Sie haben Ihre Antwortvariable bereits mithilfe einer logarithmischen Verknüpfungsfunktion auf eine Protokollskala gesetzt, sodass ein Abfangeffekt für
Participant
einen multiplikativen Effekt auf die Antwort ergibt. Wenn Sie diesem eine zufällige Steigung gebenNumberContacts
würden, mit der er interagiert , hätte dies einen leistungsbasierten Effekt auf die Reaktion. Wenn Sie dies möchten, können Sie es erhalten, mit(~ -1 + NumberContacts|Participant)
dem der Achsenabschnitt entfernt wird, aber eine Steigung basierend auf der Anzahl der Kontakte hinzugefügt wird.Sehen Sie sich zunächst Ihr Restdiagramm an, um festzustellen, ob Hinweise auf Heteroskedastizität vorliegen. Aufgrund der Diagramme, die Sie bereits aufgenommen haben, scheint es mir kein Problem zu sein, sodass Sie keine Gewichte für die Varianz hinzufügen müssen. Im Zweifelsfall können Sie Gewichte mit einer einfachen linearen Funktion hinzufügen und dann einen statistischen Test durchführen, um festzustellen, ob die Steigung der Gewichtung flach ist. Dies würde einen formalen Test der Heteroskedastizität bedeuten, der Ihnen ein Backup für Ihre Wahl geben würde.
Wenn Sie bereits einen zufälligen Effektbegriff für den Teilnehmer angegeben haben, ist es wahrscheinlich eine schlechte Idee, einen Autokorrelationsbegriff für die Anzahl der Kontakte hinzuzufügen. In Ihrem Experiment wird ein anderer Finger für eine unterschiedliche Anzahl von Kontakten verwendet, sodass Sie keine Autokorrelation für den Fall erwarten würden, in dem Sie den Teilnehmer bereits berücksichtigt haben. Das Hinzufügen eines Autokorrelationsbegriffs zusätzlich zum Teilnehmereffekt würde bedeuten, dass Sie glauben, dass eine bedingte Abhängigkeit zwischen dem Ergebnis verschiedener Finger besteht, basierend auf der Anzahl der Kontakte, selbst für einen bestimmten Teilnehmer.
quelle
In der Tat ist es vernünftig zu argumentieren, dass Messungen eines Teilnehmers nicht unabhängig von denen eines anderen Teilnehmers sind. Zum Beispiel neigen manche Menschen dazu, ihren Finger mit mehr (oder weniger) Kraft zu drücken, was sich auf alle ihre Messungen über jede Anzahl von Kontakten auswirken würde.
Daher wäre die 2-Wege-ANOVA mit wiederholten Messungen in diesem Fall ein akzeptables Modell.
Alternativ könnte man auch ein Modell mit gemischten Effekten
participant
als Zufallsfaktor anwenden . Dies ist eine fortschrittlichere und ausgefeiltere Lösung.quelle