Ist eine Metaanalyse der Odds Ratios im Wesentlichen hoffnungslos?

12

In einem kürzlich erschienenen Aufsatz von Norton et al. (2018) [ 1 ] geben an, dass[1]

Unterschiedliche Quotenverhältnisse aus derselben Studie können nicht verglichen werden, wenn die statistischen Modelle, die zu Quotenverhältnisschätzungen führen, unterschiedliche erklärende Variablen aufweisen, da jedes Modell einen anderen willkürlichen Skalierungsfaktor hat. Die Größe der Odds Ratio einer Studie kann auch nicht mit der Größe der Odds Ratio einer anderen Studie verglichen werden, da unterschiedliche Stichproben und unterschiedliche Modellspezifikationen unterschiedliche willkürliche Skalierungsfaktoren haben. Eine weitere Implikation ist, dass die Größen der Odds Ratios einer bestimmten Assoziation in mehreren Studien nicht in einer Metaanalyse synthetisiert werden können.

Eine kleine Simulation veranschaulicht dies (R-Code steht am Ende der Frage). Angenommen , die wahre Modell ist:

lÖGicht(yich)=1+Log(2)x1ich+Log(2.5)x2ich+Log(3)x3ich+0x4ich
Stellen Sie sich außerdem vor, dass dieselben Daten, die mit dem obigen Modell generiert wurden, von vier verschiedenen Forschern mithilfe einer logistischen Regression analysiert werden. Forscher 1 umfasst nur x1 als Kovariate, Forscher 2 umfasst sowohl x1 als auch x2 und so weiter. Die durchschnittlichen simulierten Schätzungen der Odds Ratio für x1 der vier Forscher waren:

res_1    res_2    res_3    res_4 
1.679768 1.776200 2.002157 2.004077

Es ist offensichtlich, dass nur die Forscher 3 und 4 das richtige Quotenverhältnis von ungefähr 2 während die Forscher 1 und 2 dies nicht tun. Dies geschieht nicht in einer linearen Regression, die durch eine ähnliche Simulation (hier nicht gezeigt) leicht gezeigt werden kann. Ich muss gestehen, dass dieses Ergebnis für mich ziemlich überraschend war, obwohl dieses Problem wohl bekannt zu sein scheint [ 2 ] . Hernán et al. (2011) [ 3 ] bezeichnen dies als "mathematische Kuriosität" anstelle einer Verzerrung.[2][3]

Meine Fragen:

  1. Wie können wir die Ergebnisse verschiedener Studien für binäre Ergebnisse kombinieren, wenn die Quotenverhältnisse zwischen Studien und Modellen grundsätzlich nicht vergleichbar sind?
  2. Was kann über die unzähligen Metaanalysen gesagt wird , dass hat die Odds Ratios aus verschiedenen Studien , in denen jede Studie möglicherweise angepasst für einen anderen Satz von Kovariaten kombinieren? Sind sie im Wesentlichen nutzlos?

Verweise

[1]: Norton EC, Dowd BE, Maciejewski ML (2018): Quotenverhältnisse - Aktuelle Best Practice und Verwendung. JAMA 320 (1): 84 & ndash; 85.

[2]: Norton EC, Dowd BE (2017): Log Odds und die Interpretation von Logit-Modellen. Health Serv Res. 53 (2): 859 & ndash; 878.

[3]: Hernán MA, Clayton D, Keiding N (2011): Das Simpson-Paradoxon wird aufgelöst. Int J Epidemiol 40: 780 & ndash; 785.

Offenlegung

Die Frage (einschließlich des R-Codes) ist eine modifizierte Version einer Frage, die der Benutzer timdisher zu Datenmethoden stellt .

R-Code

set.seed(142857)

n_sims <- 1000 # number of simulations

out <- data.frame(
  treat_1 = rep(NA, n_sims)
  , treat_2 = rep(NA, n_sims)
  , treat_3 = rep(NA, n_sims)
  , treat_4 = rep(NA, n_sims)
)

n <- 1000 # number of observations in each simulation

coef_sim <- "x1" # Coefficient of interest

# Coefficients (log-odds)

b0 <- 1
b1 <- log(2)
b2 <- log(2.5)
b3 <- log(3)
b4 <- 0

for(i in 1:n_sims){

  x1 <- rbinom(n, 1, 0.5)
  x2 <- rnorm(n)
  x3 <- rnorm(n) 
  x4 <- rnorm(n) 

  z <-  b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4

  pr <- 1/(1 + exp(-z))  

  y <-  rbinom(n, 1, pr)

  df <-  data.frame(y = y, x1 = x1, x2 = x2, x3 = x3, x4 = x4)
  model1 <- glm(y ~ x1, data = df, family = "binomial")
  model2 <- glm(y ~ x1 + x2, data = df, family = "binomial")
  model3 <- glm(y ~ x1 + x2 + x3, data = df, family = "binomial")
  model4 <- glm(y ~ x1 + x2 + x3 + x4, data = df, family = "binomial")


  out$treat_1[i] <- model1$coefficients[coef_sim]
  out$treat_2[i] <- model2$coefficients[coef_sim]
  out$treat_3[i] <- model3$coefficients[coef_sim]
  out$treat_4[i] <- model4$coefficients[coef_sim]

}

# Coefficients

colMeans(out)
exp(colMeans(out)) # Odds ratios
COOLSerdash
quelle

Antworten:

11

Es gibt eine Reihe von alternativen Effekten, die sich aus dem logistischen Regressionsmodell ableiten lassen und nicht dasselbe Problem aufweisen. Eine der einfachsten ist der durchschnittliche marginale Effekt der Variablen. Nehmen Sie das folgende logistische Regressionsmodell an:

ln[p1-p]=Xβ+γd

Xnkβkdγ

d

1nich=1n[(1+e-(Xβ+γ))-1-(1+e-Xβ)-1]

Dieser Effekt wäre der durchschnittliche Wahrscheinlichkeitsunterschied im Ergebnis zwischen der Behandlungs- und Kontrollgruppe für diejenigen, die dieselben Werte für andere Prädiktoren haben (siehe Gelman & Hill, 2007, S. 101).

Die entsprechende R-Syntax für das Beispiel von OP wäre:

dydx_bin <- function(fit, coef) {
  mod.mat <- model.matrix(fit) # Obtain model matrix
  coefs <- coef(fit)
  oth_coefs <- coefs[!(names(coefs) == coef)] # Coefs bar focal predictor
  # Get model matrix excluding focal predictor
  X_nb <- as.matrix(mod.mat[, names(oth_coefs)])
  # Predictions for all data ignoring focal predictor
  Xb_nb <- X_nb %*% oth_coefs
  mean(plogis(Xb_nb + coefs[coef]) - plogis(Xb_nb))
}

Ich habe die OP-Syntax geändert, um zu demonstrieren, dass es nicht darauf ankommt, welche Variablen im Modell enthalten sind, solange die interessierende Prädiktorvariable keine Beziehung zu anderen Prädiktoren hat.

Ich habe den Ergebnisdatenrahmen folgendermaßen geändert:

out <- data.frame(
  treat_1 = rep(NA, n_sims), treat_2 = rep(NA, n_sims),
  treat_3 = rep(NA, n_sims), treat_4 = rep(NA, n_sims),
  treat_11 = rep(NA, n_sims), treat_21 = rep(NA, n_sims),
  treat_31 = rep(NA, n_sims), treat_41 = rep(NA, n_sims)
)

Und innerhalb der Simulation habe ich die berechnete durchschnittliche Wahrscheinlichkeitsdifferenz gespeichert:

out$treat_11[i] <- dydx_bin(model1, coef_sim)
out$treat_21[i] <- dydx_bin(model2, coef_sim)
out$treat_31[i] <- dydx_bin(model3, coef_sim)
out$treat_41[i] <- dydx_bin(model4, coef_sim)

Und die neuen Ergebnisse:

colMeans(out)[5:8]
 treat_11  treat_21  treat_31  treat_41 
0.1019574 0.1018248 0.1018544 0.1018642 

Der geschätzte Effekt war unabhängig von der Modellspezifikation konsistent. Das Hinzufügen von Kovariaten verbesserte die Effizienz wie beim linearen Regressionsmodell:

apply(out[, 5:8], 2, sd)
  treat_11   treat_21   treat_31   treat_41 
0.02896480 0.02722519 0.02492078 0.02493236 

Es gibt zusätzliche Effekte, die OP wie das durchschnittliche Wahrscheinlichkeitsverhältnis zwischen den beiden Gruppen berechnen kann. Die oben berechnete durchschnittliche Wahrscheinlichkeitsdifferenz ist im Paket margin in R und im Befehl margin in Stata verfügbar. Die durchschnittliche Wahrscheinlichkeitsquote ist nur in Stata verfügbar.

Auf die andere Frage nach dem Vertrauen in Metaanalyseergebnisse. Zum einen sollte die Richtung des Effekts nicht unbrauchbar sein. Das Problem mit den Quotenverhältnissen hat keinen Einfluss auf das Vorzeichen der Koeffizienten. Wenn also ein Großteil der Studien eine Quote über eins aufweist, besteht kein Grund, diesen Effekt aufgrund dieses speziellen Problems zu bezweifeln.

Was die genaue Schätzung betrifft, gibt es keinen Grund, es zu glauben. Das Schöne ist, dass bei randomisierten, kontrollierten Studien die Quotenverhältnisse konservative Schätzungen sind und die tatsächlichen Ergebnisse sogar noch größer sind. Dies liegt daran, dass der nachgewiesene OP-Effekt die Odds Ratios gegen eins senkt. Wenn also der Großteil der Studien eine Odds Ratio über 1 aufweist und die Metaanalyse in diese Richtung zeigt, ist der tatsächliche OR noch größer, wenn alle relevanten Kovariaten angepasst wurden. Diese Metaanalysen sind also nicht völlig nutzlos.

Ich würde aber lieber andere Effektschätzungen in der Metaanalyse verwenden. Die durchschnittliche Wahrscheinlichkeitsdifferenz ist ein Ansatz, und es gibt andere.


Gelman, A. & Hill, J. (2007). Datenanalyse mit Regression und mehrstufigen / hierarchischen Modellen. Cambridge University Press.

Heteroskedastic Jim
quelle
1
@COOLSerdash Danke. Hier gibt es noch so viel mehr zu entdecken. Noch interessanter wird es, wenn das Odds Ratio von einer dichotomisierten stetigen Variablen stammt, insbesondere wenn die ursprünglichen Beziehungen heteroskedastisch waren. Siehe Achim Zeileis Antwort auf diese Frage - stats.stackexchange.com/questions/370876/…
Heteroskedastic Jim
Danke für den Link. Ich muss gestehen, dass die Herleitung des logistischen Modells unter Verwendung einer zugrunde liegenden latenten kontinuierlichen Variablen für mich neu ist. Ich komme aus der Biostatistik und die wegweisenden Quellen auf diesem Gebiet scheinen diese Probleme nicht zu erwähnen (z. B. das Buch von Lemeshow & Hosmer "Applied Logistic Regression"). Ich werde dir das Kopfgeld geben, sobald ich kann (morgen).
COOLSerdash
Ich halte die Herleitung unter der zugrunde liegenden kontinuierlichen Variablen für seltsam, wenn Sie logistische Fehler annehmen. Wenn Sie von normalen Fehlern ausgehen, ist dies dank CLT vertretbarer. Daher ist die Probit-Regression, die in der Ökonometrie häufig verwendet wird, eine häufige Herleitung. Wenn Sie jedoch eine stetige Variable dichotomisieren, ist die Ableitung unter Fehlerbedingungen sehr hilfreich. Darüber hinaus ermöglicht diese Herleitung, das Modell allgemein besser zu erkunden und bestimmte Macken zu entdecken. Und danke für die Rückvergütung.
Heteroskedastic Jim