Hilfe bei der Interpretation von Zähldaten GLMM mit lme4 glmer und glmer.nb - Negatives Binomial gegenüber Poisson

9

Ich habe einige Fragen zur Spezifikation und Interpretation von GLMMs. 3 Fragen sind definitiv statistisch und 2 beziehen sich genauer auf R. Ich poste hier, weil ich letztendlich denke, dass das Problem die Interpretation der GLMM-Ergebnisse ist.

Ich versuche gerade, ein GLMM zu montieren. Ich verwende US-Volkszählungsdaten aus der Longitudinal Tract Database . Meine Beobachtungen sind Zensusdaten. Meine abhängige Variable ist die Anzahl der freien Wohneinheiten und ich interessiere mich für die Beziehung zwischen Leerstand und sozioökonomischen Variablen. Das Beispiel hier ist einfach und verwendet nur zwei feste Effekte: Prozent der nicht weißen Bevölkerung (Rasse) und das mittlere Haushaltseinkommen (Klasse) sowie deren Interaktion. Ich möchte zwei verschachtelte zufällige Effekte einbeziehen: Traktate innerhalb von Jahrzehnten und Jahrzehnten, dh (Jahrzehnt / Traktat). Ich betrachte diese Zufälle, um die räumliche (dh zwischen Traktaten) und zeitliche (dh zwischen Jahrzehnten) Autokorrelation zu kontrollieren. Ich interessiere mich jedoch auch für das Jahrzehnt als festen Effekt, daher beziehe ich es auch als festen Faktor ein.

Da meine unabhängige Variable eine nicht negative Ganzzahl-Zählvariable ist, habe ich versucht, Poisson- und negative Binomial-GLMMs anzupassen. Ich verwende das Protokoll der gesamten Wohneinheiten als Versatz. Dies bedeutet, dass Koeffizienten als Auswirkung auf die Leerstandsquote und nicht als Gesamtzahl der leer stehenden Häuser interpretiert werden.

Ich habe derzeit Ergebnisse für ein Poisson und ein negatives binomisches GLMM, die mit glmer und glmer.nb von lme4 geschätzt wurden . Die Interpretation von Koeffizienten ist für mich aufgrund meiner Kenntnis der Daten und des Untersuchungsgebiets sinnvoll.

Wenn Sie die Daten und das Skript möchten , befinden sie sich auf meinem Github . Das Skript enthält weitere beschreibende Untersuchungen, die ich vor dem Erstellen der Modelle durchgeführt habe.

Hier sind meine Ergebnisse:

Poisson-Modell

Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
 Family: poisson  ( log )
Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) +      (1 | decade/TRTID10)
   Data: scaled.mydata

     AIC      BIC   logLik deviance df.resid 
 34520.1  34580.6 -17250.1  34500.1     3132 

Scaled residuals: 
     Min       1Q   Median       3Q      Max 
-2.24211 -0.10799 -0.00722  0.06898  0.68129 

Random effects:
 Groups         Name        Variance Std.Dev.
 TRTID10:decade (Intercept) 0.4635   0.6808  
 decade         (Intercept) 0.0000   0.0000  
Number of obs: 3142, groups:  TRTID10:decade, 3142; decade, 5

Fixed effects:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)     -3.612242   0.028904 -124.98  < 2e-16 ***
decade1980       0.302868   0.040351    7.51  6.1e-14 ***
decade1990       1.088176   0.039931   27.25  < 2e-16 ***
decade2000       1.036382   0.039846   26.01  < 2e-16 ***
decade2010       1.345184   0.039485   34.07  < 2e-16 ***
P_NONWHT         0.175207   0.012982   13.50  < 2e-16 ***
a_hinc          -0.235266   0.013291  -17.70  < 2e-16 ***
P_NONWHT:a_hinc  0.093417   0.009876    9.46  < 2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Correlation of Fixed Effects:
            (Intr) dc1980 dc1990 dc2000 dc2010 P_NONWHT a_hinc
decade1980  -0.693                                            
decade1990  -0.727  0.501                                     
decade2000  -0.728  0.502  0.530                              
decade2010  -0.714  0.511  0.517  0.518                       
P_NONWHT     0.016  0.007 -0.016 -0.015  0.006                
a_hinc      -0.023 -0.011  0.023  0.022 -0.009  0.221         
P_NONWHT:_h  0.155  0.035 -0.134 -0.129  0.003  0.155   -0.233
convergence code: 0
Model failed to converge with max|grad| = 0.00181132 (tol = 0.001, component 1)

Negatives Binomialmodell

Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
 Family: Negative Binomial(25181.5)  ( log )
Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) +      (1 | decade/TRTID10)
   Data: scaled.mydata

     AIC      BIC   logLik deviance df.resid 
 34522.1  34588.7 -17250.1  34500.1     3131 

Scaled residuals: 
     Min       1Q   Median       3Q      Max 
-2.24213 -0.10816 -0.00724  0.06928  0.68145 

Random effects:
 Groups         Name        Variance  Std.Dev. 
 TRTID10:decade (Intercept) 4.635e-01 6.808e-01
 decade         (Intercept) 1.532e-11 3.914e-06
Number of obs: 3142, groups:  TRTID10:decade, 3142; decade, 5

Fixed effects:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)     -3.612279   0.028946 -124.79  < 2e-16 ***
decade1980       0.302897   0.040392    7.50 6.43e-14 ***
decade1990       1.088211   0.039963   27.23  < 2e-16 ***
decade2000       1.036437   0.039884   25.99  < 2e-16 ***
decade2010       1.345227   0.039518   34.04  < 2e-16 ***
P_NONWHT         0.175216   0.012985   13.49  < 2e-16 ***
a_hinc          -0.235274   0.013298  -17.69  < 2e-16 ***
P_NONWHT:a_hinc  0.093417   0.009879    9.46  < 2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Correlation of Fixed Effects:
            (Intr) dc1980 dc1990 dc2000 dc2010 P_NONWHT a_hinc
decade1980  -0.693                                            
decade1990  -0.728  0.501                                     
decade2000  -0.728  0.502  0.530                              
decade2010  -0.715  0.512  0.517  0.518                       
P_NONWHT     0.016  0.007 -0.016 -0.015  0.006                
a_hinc      -0.023 -0.011  0.023  0.022 -0.009  0.221         
P_NONWHT:_h  0.154  0.035 -0.134 -0.129  0.003  0.155   -0.233

Poisson DHARMa-Tests

    One-sample Kolmogorov-Smirnov test

data:  simulationOutput$scaledResiduals
D = 0.044451, p-value = 8.104e-06
alternative hypothesis: two-sided

    DHARMa zero-inflation test via comparison to expected zeros with simulation under H0 = fitted model

data:  simulationOutput
ratioObsExp = 1.3666, p-value = 0.159
alternative hypothesis: more

Negative binomiale DHARMa-Tests

    One-sample Kolmogorov-Smirnov test

data:  simulationOutput$scaledResiduals
D = 0.04263, p-value = 2.195e-05
alternative hypothesis: two-sided

    DHARMa zero-inflation test via comparison to expected zeros with simulation under H0 = fitted model

data:  simulationOutput2
ratioObsExp = 1.376, p-value = 0.174
alternative hypothesis: more

DHARMa-Grundstücke

Poisson

Poisson Modell DHARMa Grundstück

Negatives Binomial

Negatives Binomialmodell DHARMa-Diagramm

Statistikfragen

Da ich immer noch GLMMs herausfinde, fühle ich mich hinsichtlich Spezifikation und Interpretation unsicher. Ich habe ein paar Fragen:

  1. Es scheint, dass meine Daten die Verwendung eines Poisson-Modells nicht unterstützen, und daher bin ich mit negativem Binomial besser dran. Ich erhalte jedoch immer wieder Warnungen, dass meine negativen Binomialmodelle ihre Iterationsgrenze erreichen, selbst wenn ich die maximale Grenze erhöhe. "In theta.ml (Y, mu, Gewichte = Objekt @ bzw. $ Gewichte, Grenze = Grenze ,: Iterationsgrenze erreicht." Dies geschieht unter Verwendung einiger verschiedener Spezifikationen (dh Minimal- und Maximalmodelle für feste und zufällige Effekte). Ich habe auch versucht, Ausreißer in meinem abhängigen Bereich zu entfernen (brutto, ich weiß!), Da die oberen 1% der Werte sehr viele Ausreißer sind (untere 99% reichen von 0-1012, obere 1% von 1013-5213). Ich habe keine Auswirkungen auf Iterationen und auch nur sehr geringe Auswirkungen auf die Koeffizienten. Ich füge diese Details hier nicht hinzu. Die Koeffizienten zwischen Poisson und negativem Binom sind ebenfalls ziemlich ähnlich. Ist dieser Mangel an Konvergenz ein Problem? Passt das negative Binomialmodell gut? Ich habe auch das negative Binomialmodell mit ausgeführtAllFit und nicht alle Optimierer geben diese Warnung aus (Bobyqa, Nelder Mead und nlminbw nicht).

  2. Die Varianz für meinen zehnjährigen festen Effekt ist durchweg sehr gering oder 0. Ich verstehe, dass dies bedeuten könnte, dass das Modell überangepasst ist. Wenn Sie ein Jahrzehnt aus den festen Effekten herausnehmen, erhöht sich die Varianz der zufälligen Effekte des Jahrzehnts auf 0,2620 und hat keinen großen Einfluss auf die Koeffizienten der festen Effekte. Ist etwas falsch daran, es zu belassen? Ich interpretiere es gut als einfach nicht nötig, um zwischen Beobachtungsvarianz zu erklären.

  3. Zeigen diese Ergebnisse an, dass ich Modelle ohne Luftdruck ausprobieren sollte? DHARMa scheint darauf hinzudeuten, dass eine Nullinflation möglicherweise nicht das Problem ist. Wenn Sie denken, ich sollte es trotzdem versuchen, siehe unten.

R Fragen

  1. Ich wäre bereit, Modelle mit null Inflation auszuprobieren, bin mir jedoch nicht sicher, welches Paket verschachtelte zufällige Effekte für Poisson mit null Inflation und negative binomiale GLMMs implementiert. Ich würde glmmADMB verwenden, um AIC mit null aufgeblasenen Modellen zu vergleichen, aber es ist auf einen einzelnen zufälligen Effekt beschränkt, funktioniert also nicht für dieses Modell. Ich könnte MCMCglmm ausprobieren, aber ich kenne keine Bayes'schen Statistiken, so dass dies auch nicht attraktiv ist. Irgendwelche anderen Optionen?

  2. Kann ich potenzierte Koeffizienten innerhalb der Zusammenfassung (Modell) anzeigen oder muss ich dies außerhalb der Zusammenfassung tun, wie ich es hier getan habe?

Samuel Walker
quelle
1
(2) ist einfach: decadesowohl fest als auch zufällig zu haben, macht keinen Sinn. Entweder haben Sie es als fest und schließen es nur (1 | decade:TRTID10)als zufällig ein (was der (1 | TRTID10)Annahme entspricht, dass Sie TRTID10für verschiedene Jahrzehnte nicht die gleichen Stufen haben), oder entfernen Sie es aus den festen Effekten. Mit nur 4 Levels ist es vielleicht besser, wenn Sie es reparieren lassen: Die übliche Empfehlung ist, zufällige Effekte anzupassen, wenn man 5 Levels oder mehr hat.
Amöbe
1
Abgesehen davon erscheinen Ihre beiden Diagramme identisch.
Amöbe
1
In Bezug auf die Konvergenzwarnung haben Sie in (1) gesagt, dass Sie das bobyqaOptimierungsprogramm ausprobiert haben und es keine Warnung ausgegeben hat. Was ist dann das Problem? Einfach benutzen bobyqa.
Amöbe
1
Ich verstehe übrigens nicht, warum Sie sagen: "Es scheint, dass meine Daten die Verwendung eines Poisson-Modells nicht unterstützen."
Amöbe
1
Nach meiner Erfahrung bobyqakonvergiert besser als das Standardoptimierungsprogramm (und ich glaube, ich habe irgendwo gelesen, dass es in zukünftigen Versionen von zum Standardoptimierer werden wird lme4). Ich glaube nicht, dass Sie sich über die Nichtkonvergenz mit dem Standardoptimierer Gedanken machen müssen, wenn dieser konvergiert bobyqa.
Amöbe

Antworten:

10

Ich glaube, es gibt einige wichtige Probleme, die mit Ihrer Einschätzung angegangen werden müssen.

Nach dem, was ich durch die Untersuchung Ihrer Daten gesammelt habe, sind Ihre Einheiten nicht geografisch gruppiert, dh Volkszählungsdaten innerhalb von Landkreisen. Die Verwendung von Traktaten als Gruppierungsfaktor ist daher nicht geeignet, um räumliche Heterogenität zu erfassen, da dies bedeutet, dass Sie die gleiche Anzahl von Personen wie Gruppen haben (oder anders ausgedrückt, alle Ihre Gruppen haben jeweils nur eine Beobachtung). Die Verwendung einer mehrstufigen Modellierungsstrategie ermöglicht es uns, die Varianz auf Einzelebene zu schätzen und gleichzeitig die Varianz zwischen Gruppen zu kontrollieren. Da Ihre Gruppen jeweils nur ein Individuum haben, entspricht Ihre Varianz zwischen den Gruppen Ihrer Varianz auf Einzelebene, wodurch der Zweck des Mehrebenenansatzes zunichte gemacht wird.

Andererseits kann der Gruppierungsfaktor wiederholte Messungen über die Zeit darstellen. Zum Beispiel können im Fall einer Längsschnittstudie die "Mathematik" -Ergebnisse einer Person jährlich neu bewertet werden, sodass wir für jeden Schüler einen jährlichen Wert für n Jahre haben würden (in diesem Fall ist der Gruppierungsfaktor der Schüler, wie wir n haben Anzahl der Beobachtungen, die innerhalb der Schüler "verschachtelt" sind). In Ihrem Fall haben Sie die Messungen jedes Zensus-Trakts von wiederholt decade. Daher können Sie Ihre TRTID10Variable als Gruppierungsfaktor verwenden, um "Varianz zwischen Jahrzehnten" zu erfassen. Dies führt zu 3142 Beobachtungen, die in 635 Traktaten verschachtelt sind, mit ungefähr 4 und 5 Beobachtungen pro Zensus-Traktat.

Wie in einem Kommentar erwähnt, ist die Verwendung decadeals Gruppierungsfaktor nicht sehr angemessen, da Sie nur etwa 5 Jahrzehnte für jeden Zensus-Trakt haben und deren Wirkung besser erfasst werden kann, wenn Sie sie decadeals Kovariate einführen .

Zweitens, um zu bestimmen, ob Ihre Daten mit einem Poisson- oder einem negativen Binomialmodell (oder einem Null-Inflations-Ansatz) modelliert werden sollen. Berücksichtigen Sie das Ausmaß der Überdispersion in Ihren Daten. Das grundlegende Merkmal einer Poisson-Verteilung ist die Äquidispersion, was bedeutet, dass der Mittelwert gleich der Varianz der Verteilung ist. Wenn Sie sich Ihre Daten ansehen, ist es ziemlich klar, dass es viel Überdispersion gibt. Varianzen sind viel viel größer als die Mittel.

library(dplyr)    
 dispersionstats <- scaled.mydata %>%
 + group_by(decade) %>%
 + summarise(
 + means = mean(R_VAC),
 + variances = var(R_VAC),
 + ratio = variances/means)

##   dispersionstats
##   # A tibble: 5 x 5
##   decade     means variances     ratio 
##    <int>     <dbl>     <dbl>     <dbl> 
## 1   1970  45.43513   4110.89  90.47822 
## 2   1980 103.52365  17323.34 167.33707 
## 3   1990 177.68038  62129.65 349.67087 
## 4   2000 190.23150  91059.60 478.67784 
## 5   2010 247.68246 126265.60 509.78821 

Um jedoch festzustellen, ob das negative Binom statistisch besser geeignet ist, besteht eine Standardmethode darin, einen Likelihood-Ratio-Test zwischen einem Poisson- und einem negativen Binomialmodell durchzuführen, was darauf hindeutet, dass das Negbin besser passt.

library(MASS)
library(lmtest)

modelformula <- formula(R_VAC ~ factor(decade) + P_NONWHT * a_hinc + offset(HU_ln))

poismodel <- glm(modelformula, data = scaled.mydata, family = "poisson")   
nbmodel <- glm.nb(modelformula, data = scaled.mydata)

lrtest(poismodel, nbmodel)

## Likelihood ratio test

##  Model 1: R_VAC ~ factor(decade) + P_NONWHT * a_hinc + offset(HU_ln)  
## Model 2: R_VAC ~ factor(decade) + P_NONWHT * a_hinc + offset(HU_ln)
##   #Df  LogLik Df  Chisq Pr(>Chisq)
## 1   8 -154269
## 2   9  -17452  1 273634  < 2.2e-16 ***
##  ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Nachdem dies festgestellt wurde, könnte ein nächster Test prüfen, ob der Mehrebenenansatz (gemischtes Modell) unter Verwendung eines ähnlichen Ansatzes gerechtfertigt ist, was darauf hindeutet, dass die Mehrebenenversion eine bessere Anpassung bietet. (Ein ähnlicher Test könnte verwendet werden, um eine glmer-Anpassung unter der Annahme einer Poisson-Verteilung mit dem glmer.nb-Objekt zu vergleichen, sofern die Modelle ansonsten identisch sind.)

library(lme4)

glmmformula <- update(modelformula, . ~ . + (1|TRTID10))

nbglmm <- glmer.nb(glmmformula, data = scaled.mydata)

lrtest(nbmodel, nbglmm)

## Model 1: R_VAC ~ factor(decade) + P_NONWHT * a_hinc + offset(HU_ln)
## Model 2: R_VAC ~ factor(decade) + P_NONWHT + a_hinc + (1 | TRTID10) +
##     P_NONWHT:a_hinc + offset(HU_ln)
##   #Df LogLik Df Chisq Pr(>Chisq)
## 1   9 -17452
## 2  10 -17332  1 239.3  < 2.2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

In Bezug auf die Schätzungen der Poisson- und nb-Modelle wird erwartet, dass sie einander sehr ähnlich sind, wobei der Hauptunterschied die Standardfehler sind, dh wenn eine Überdispersion vorliegt, neigt das Poisson-Modell dazu, voreingenommene Standardfehler bereitzustellen. Nehmen Sie Ihre Daten als Beispiel:

poissonglmm <- glmer(glmmformula, data = scaled.mydata)
summary(poissonglmm)

## Random effects:
##  Groups  Name        Variance Std.Dev.
## TRTID10 (Intercept) 0.2001   0.4473
## Number of obs: 3142, groups:  TRTID10, 635

## Fixed effects:
##                     Estimate Std. Error z value Pr(>|z|)
## (Intercept)        -2.876013   0.020602 -139.60   <2e-16 ***
## factor(decade)1980  0.092597   0.007602   12.18   <2e-16 ***
## factor(decade)1990  0.903543   0.007045  128.26   <2e-16 ***
## factor(decade)2000  0.854821   0.006913  123.65   <2e-16 ***
## factor(decade)2010  0.986126   0.006723  146.67   <2e-16 ***
## P_NONWHT           -0.125500   0.014007   -8.96   <2e-16 ***
## a_hinc             -0.107335   0.001480  -72.52   <2e-16 ***
## P_NONWHT:a_hinc     0.160937   0.003117   51.64   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

summary(nbglmm)
## Random effects:
##  Groups  Name        Variance Std.Dev.
##  TRTID10 (Intercept) 0.09073  0.3012
## Number of obs: 3142, groups:  TRTID10, 635

## Fixed effects:
##                     Estimate Std. Error z value Pr(>|z|)
## (Intercept)        -2.797861   0.056214  -49.77  < 2e-16 ***
## factor(decade)1980  0.118588   0.039589    3.00  0.00274 **
## factor(decade)1990  0.903440   0.038255   23.62  < 2e-16 ***
## factor(decade)2000  0.843949   0.038172   22.11  < 2e-16 ***
## factor(decade)2010  1.068025   0.037376   28.58  < 2e-16 ***
## P_NONWHT            0.020012   0.089224    0.22  0.82253
## a_hinc             -0.129094   0.008109  -15.92  < 2e-16 ***
## P_NONWHT:a_hinc     0.149223   0.018967    7.87 3.61e-15 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Beachten Sie, dass die Koeffizientenschätzungen alle sehr ähnlich sind. Der Hauptunterschied besteht nur in der Signifikanz einer Ihrer Kovariaten sowie in der Varianz der Zufallseffekte, was darauf hindeutet, dass die Varianz auf Einheitsebene durch den Überdispersionsparameter in nb erfasst wird Das Modell (der thetaWert im Objekt glmer.nb) erfasst einen Teil der Varianz zwischen den Trakten, die durch die zufälligen Effekte erfasst wird.

In Bezug auf potenzierte Koeffizienten (und zugehörige Konfidenzintervalle) können Sie Folgendes verwenden:

fixed <- fixef(nbglmm)
confnitfixed <- confint(nbglmm, parm = "beta_", method = "Wald") # Beware: The Wald method is less accurate but much, much faster.

# The exponentiated coefficients are also known as Incidence Rate Ratios (IRR)
IRR <- exp(cbind(fixed, confintfixed)
IRR
##                         fixed      2.5 %     97.5 %
## (Intercept)        0.06094028 0.05458271 0.06803835
## factor(decade)1980 1.12590641 1.04184825 1.21674652
## factor(decade)1990 2.46807856 2.28979339 2.66024515
## factor(decade)2000 2.32553168 2.15789585 2.50619029
## factor(decade)2010 2.90962703 2.70410073 3.13077444
## P_NONWHT           1.02021383 0.85653208 1.21517487
## a_hinc             0.87889172 0.86503341 0.89297205
## P_NONWHT:a_hinc    1.16093170 1.11856742 1.20490048

Letzte Gedanken zur Nullinflation. Es gibt keine mehrstufige Implementierung (zumindest ist mir bekannt) eines Poisson- oder Negbin-Modells mit Null-Inflation, mit der Sie eine Gleichung für die Null-Inflation-Komponente der Mischung angeben können. Mit dem glmmADMBModell können Sie einen konstanten Null-Inflationsparameter schätzen. Ein alternativer Ansatz wäre die Verwendung der zeroinflFunktion im psclPaket, obwohl dies keine Mehrebenenmodelle unterstützt. Auf diese Weise können Sie die Anpassung eines einstufigen negativen Binomials mit dem einstufigen negativen Binomial Null vergleichen. Wenn die Nullinflation für einstufige Modelle nicht signifikant ist, ist es wahrscheinlich, dass sie für die Mehrebenenspezifikation nicht signifikant ist.

Nachtrag

Wenn Sie sich Sorgen über die räumliche Autokorrelation machen, können Sie dies mithilfe einer geografischen gewichteten Regression steuern (obwohl ich glaube, dass hier Punktdaten und keine Bereiche verwendet werden). Alternativ können Sie Ihre Zensusdaten nach einem zusätzlichen Gruppierungsfaktor (Bundesstaaten, Landkreise) gruppieren und diesen als zufälligen Effekt einbeziehen. Und schließlich, und ich bin nicht sicher, ob dies vollständig machbar ist, kann es möglich sein, die räumliche Abhängigkeit zu berücksichtigen, indem beispielsweise die durchschnittliche Anzahl von R_VACNachbarn erster Ordnung als Kovariate verwendet wird. In jedem Fall wäre es vor solchen Ansätzen sinnvoll festzustellen, ob tatsächlich eine räumliche Autokorrelation vorliegt (unter Verwendung von I-, LISA-Tests und ähnlichen Ansätzen von Global Moran).

prestevez
quelle
1
brmskann null aufgeblasene negative Binomialmodelle mit zufälligen Effekten anpassen.
Andrew M
@prestevez und @Andrew, das ist super nützlich! Es hat viele Probleme geklärt, die ich hatte. Vielen Dank, dass Sie sich die Zeit genommen haben, mich durch die Sache zu führen. Ich werde versuchen, ein gemischtes Zinb-Modell von anzupassen brmsund dieses mit dem oben beschriebenen Modell glmer.nb zu vergleichen. Ich werde auch versuchen, einen von der Volkszählung definierten Ort (im Grunde Gemeinde, ~ 170 Gruppen) als Gruppierungsfaktor für die zufälligen Effekte einzubeziehen (nur 5 Landkreise in den Daten, daher werde ich das nicht verwenden). Ich werde auch die räumliche Autokorrelation von Residuen mit Global Morans I testen. Ich werde darüber berichten, wenn ich das getan habe.
Samuel Walker
@ AndrewM, danke für die Info! Ich war mir der Brms nicht bewusst und mit der Bayes'schen Statistik im Allgemeinen nicht vertraut, obwohl ich jetzt sehr daran interessiert bin, sie zu untersuchen.
Prestevez
1
@ SamuelWalker Ich bin froh, dass es nützlich war! Gemeinde klingt nach einer guten Wahl (ich bin mit US-Volkszählungsdaten nicht vertraut, daher schlug ich Landkreise vor, ohne wirklich zu wissen, ob sie angemessen wären). In Bezug auf den Vergleich von glmer.nb-Passungen mit einem brms-Objekt bin ich mir jedoch nicht sicher, wie ich sie am besten vergleichen kann, da ich mit Bayes'schen Statistiken nicht vertraut bin. Viel Glück!
Prestevez
1
@SamuelWalker Eine mögliche Alternative könnte darin bestehen, sowohl Standard- als auch Null-Inflations-Negbin-Modelle zu verwenden brmsund zu vergleichen.
Prestevez