Ich denke, wir müssen uns zuerst fragen, ob es notwendig ist, eine logistische Regression mit proportionalen Gewinnchancen zu verwenden, um ein kumulatives relatives Risiko zu approximieren, z. B. das relative Risiko, ein höheres Ergebnis zu melden. Die probabilistische Formulierung des Proportional-Odds-Modells beruht auf der Beobachtung beliebiger Bins einer latenten logistischen Zufallsvariablen. Siehe meine relevante Frage hier . Die Eleganz dieser Methode besteht darin, dass die Überlebensfunktion (1-CDF) eines logistischen RV das inverse Logit ist, z. B. .P(Z>z)=exp(−z)/(1+exp(−z))
Wenn wir eine ähnliche probabilistische Ableitung eines relativen Risikomodells annehmen wollen, besteht der Wunsch darin, eine latente Zufallsvariable zu finden, deren Überlebensfunktion . Dies ist jedoch nur eine exponentielle Zufallsvariable, die ohne Speicher ist. Wenn wir also die Matrix der Schwellenwert-Ergebnisvariablen konstruieren (glaube ich), sind die Zellfrequenzen bedingt unabhängig und können daher über modelliert werden ein logarithmisch lineares Modell, das nur eine Poisson-Regression ist. Dies ist beruhigend, da die Interpretation der Poisson-Koeffizienten als relative Rate erfolgt. Die Modellierung der Wechselwirkung zwischen der Antwortvariablen als numerisches Ergebnis und den Regressionskoeffizienten führt zur korrekten Interpretation.O i j = I ( Y i ≥ j )P(Z>z)=exp(−z)Oij=I(Yi≥j)
Passen Sie also das logarithmische lineare Modell an:
log(Nij|Yi,Xi,)=η0I(Yi=0)+…+ηjI(Yi==j)+β⃗ Xi,+γ⃗ diag(Y)Xi,
Anhand des Beispiels aus dem MASS-Paket sehen wir den gewünschten Effekt, dass das relative Risiko in allen Fällen viel geringer ist als der OP:
newData <- data.frame('oy'=oy, 'ny'=as.numeric(y), housing)
## trick: marginal frequencies are categorical but interactions are linear
## solution: use linear main effect and add indicators for remaining n-2 categories
## equivalent model specifications
fit <- glm(Freq ~ oy.2 + ny*(Infl + Type + Cont), data=newData, family=poisson)
effects <- grep('ny:', names(coef(fit)), value=T)
print(cbind(
coef(summary(fit))[effects, ],
coef(summary(house.plr))[gsub('ny:','', effects), ]
), digits=3)
Gibt uns:
Estimate Std. Error z value Pr(>|z|) Value Std. Error t value
ny:InflMedium 0.360 0.0664 5.41 6.23e-08 0.566 0.1047 5.41
ny:InflHigh 0.792 0.0811 9.77 1.50e-22 1.289 0.1272 10.14
ny:TypeApartment -0.299 0.0742 -4.03 5.55e-05 -0.572 0.1192 -4.80
ny:TypeAtrium -0.170 0.0977 -1.74 8.21e-02 -0.366 0.1552 -2.36
ny:TypeTerrace -0.673 0.0951 -7.07 1.51e-12 -1.091 0.1515 -7.20
ny:ContHigh 0.106 0.0578 1.84 6.62e-02 0.360 0.0955 3.77
Wobei die ersten 4 Spalten aus dem logarithmischen linearen Modell abgeleitet werden und die zweiten 3 Spalten aus dem Proportional-Odds-Modell stammen.
Dies beantwortet vielleicht die wichtigste Frage: Wie passt man zu einem solchen Modell? Ich denke, es kann verwendet werden, um die relative Annäherung (en) von OPs für seltene Ereignisse an die RRs zu untersuchen.
X
einen Abschnitt enthält). Ich habe es gewählt, weil es die Punkte hervorhebt, die für die Frage am relevantesten sind. (Es ist offensichtlich nicht gleichwertig, wenn Sie logit durch log ersetzen, aber diese Formulierung scheint das Beste zu verallgemeinern)