Anpassen eines binomischen GLMM (glmer) an eine Antwortvariable, die ein Anteil oder ein Bruchteil ist

9

Ich hoffe, jemand kann bei einer meiner Meinung nach relativ einfachen Frage helfen, und ich glaube, ich kenne die Antwort, aber ohne Bestätigung ist sie zu etwas geworden, dessen ich mir einfach nicht sicher sein kann.

Ich habe einige Zähldaten als Antwortvariable und möchte messen, wie sich diese Variable mit dem proportionalen Vorhandensein von etwas ändert.

Genauer gesagt ist die Antwortvariable die Anzahl des Vorhandenseins einer Insektenart an einer Anzahl von Stellen, so dass beispielsweise eine Stelle zehnmal beprobt wird und diese Art viermal vorkommen kann.

Ich möchte sehen, ob dies mit dem proportionalen Vorhandensein einer Gruppe von Pflanzenarten in der Gesamtgemeinschaft der Pflanzen an diesen Standorten korreliert.

Dies bedeutet, dass meine Daten wie folgt aussehen (dies ist nur ein Beispiel)

Site, insectCount, NumberOfInsectSamples, ProportionalPlantGroupPresence
1, 5, 10, 0.5
2, 3, 10, 0.3
3, 7, 9, 0.6
4, 0, 9, 0.1

Die Daten enthalten auch einen zufälligen Effekt für den Standort.

Ich dachte an zwei Methoden, eine wäre ein lineares Modell ( lmer), bei dem die Insekten in einen Anteil umgewandelt werden, z

 lmer.model<-lmer(insectCount/NumberOfInsectSamples~
 ProportionalPlantGroupPresence+(1|Location),data=Data)

Das zweite wäre ein Binomial-GLMM ( glmer), z

glmer.model <- glmer(cbind(insectCount,NumberOfInsectSamples-insectCount)~
 ProportionalPlantGroupPresence+(1|Location),
 data=Data,family="binomial")

Ich glaube, dass das Binomial Glmer die richtige Methode ist, aber sie führen zu ziemlich unterschiedlichen Ergebnissen. Ich kann im Internet keine endgültige Antwort finden, ohne mich immer noch etwas unsicher zu fühlen, und möchte sicherstellen, dass ich keinen Fehler mache.

Jede Hilfe oder Einsicht in alternative Methoden hierzu wäre sehr dankbar.

ALs
quelle
Siehe auch
Amöbe

Antworten:

17

Das Binomial GLMM ist wahrscheinlich die richtige Antwort.

  • Insbesondere bei einer kleinen bis mäßigen Anzahl von Stichproben (9 und 10 in Ihrem Beispiel) ist die Verteilung der Antwortvariablen wahrscheinlich heteroskedastisch (die Varianz ist nicht konstant und hängt insbesondere systematisch vom Mittelwert ab) und weit von der Normalität auf eine Weise, die schwer zu transformieren ist - insbesondere wenn die Proportionen für einige Werte der Prädiktorvariablen nahe 0 oder 1 liegen. Das macht das GLMM zu einer guten Idee.
  • Sie sollten darauf achten, auf Überdispersion zu prüfen. Wenn Sie eine einzelne Beobachtung (dh eine einzelne Binomialstichprobe / -zeile in Ihrem Datenrahmen) pro Standort haben, wird dies durch Ihren (1|Site)zufälligen Effekt automatisch behandelt (obwohl Sie in Harrison 2015 einen Warnhinweis finden).
  • Wenn die vorherige Annahme richtig ist (Sie haben nur eine einzige Binomialstichprobe pro Standort), können Sie diese auch als reguläres Binomialmodell glm(...,family=binomial)anpassen ( - in diesem Fall können Sie auch ein Quasibinomialmodell ( family=quasibinomial) als einfachere, alternative Methode verwenden Überdispersion zu erklären
  • Wenn Sie möchten, können Sie Ihr GLMM auch mit dem Anteil als Antwort versehen, wenn Sie das weightsArgument so einstellen, dass es der Anzahl der Stichproben entspricht:

     glmer(insectCount/NumberOfInsectSamples~ProportionalPlantGroupPresence+
           (1|Location),
           weights=NumberofInsectSamples,
           data=Data,family="binomial")

    (Dies sollte zu identischen Ergebnissen führen wie die glmer()Anpassung, die Sie in Ihrer Frage haben).

Harrison, Xavier A. " Ein Vergleich von zufälligen Effekten auf Beobachtungsebene und Beta-Binomial-Modellen zur Modellierung der Überdispersion in Binomialdaten in Ökologie und Evolution ." PeerJ 3 (21. Juli 2015): e1114. doi: 10.7717 / peerj.1114.

Ben Bolker
quelle
Hallo Ben, vielen Dank für deine klare und umfassende Antwort!
ALs