In diesem Fall können Sie Ihre Daten zu
wobei die Anzahl der Instanzen für und mit . Angenommen, es gibt insgesamt Beobachtungen. Sijx=iy=ji,j∈{0,1}n
X∖ Y010S00S101S01S11
Sich jx = iy= ji , j ∈ { 0 , 1 }n
Wenn wir das Modell (wobei unsere Verknüpfungsfunktion ist), werden wir Es wird festgestellt, dass das Protokoll des Erfolgsanteils ist, wenn und das Protokoll des Erfolgsanteils ist, wenn . Mit anderen Worten,
\ hat \ beta_0 = g \ left (\ frac {S_ {01}} {S_ {00} + S_ {01}} \ right)
und
\ hat \ beta_0 + \ hat \ beta_1 = g \ left ( \ frac {S_ {11}} {S_ {10} + S_ {11}} \ right).
g β 0 x i = 0 β 0 + β 1 x i = 1 β 0 = g ( S 01pich= g- 1( xTichβ) = g- 1( β0+ β11xich= 1)Gβ^0xich= 0β^0+ β^1xich= 1 β 0+ β 1=g(S11
β^0= g( S01S00+ S01)
β^0+ β^1= g( S11S10+ S11) .
Lassen Sie uns das überprüfen R
.
n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)
tbl <- table(x=x,y=y)
mod <- glm(y ~ x, family=binomial())
# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])
# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])
Die logistischen Regressionskoeffizienten sind also genau Transformationen von Proportionen, die aus der Tabelle stammen.
Das Fazit ist, dass wir diesen Datensatz sicherlich mit einer logistischen Regression analysieren können, wenn wir Daten aus einer Reihe von Bernoulli-Zufallsvariablen haben, aber es stellt sich heraus, dass dies nichts anderes ist, als die resultierende Kontingenztabelle direkt zu analysieren.
Ich möchte erläutern, warum dies aus theoretischer Sicht funktioniert. Wenn wir eine logistische Regression anpassen, verwenden wir das Modell . Wir entscheiden uns dann, den Mittelwert als Transformation eines linearen Prädiktors in oder in Symbolen zu modellieren . In unserem Fall haben wir nur zwei eindeutige Werte von , und daher gibt es nur zwei eindeutige Werte von , beispielsweise und . Aufgrund unserer Unabhängigkeitsannahme haben wir
und
Y.ich| xich∼⊥Bern ( S.ich)xichpich= g- 1( β0+ β1xich)xichpichp0p1
∑i : xich= 0Y.ich= S01∼ Bin ( n0, p0)
∑i : xich= 1Y.ich= S11∼ Bin ( n1, p1) .
Beachten Sie, wie wir die Tatsache verwenden, dass und wiederum und nicht zufällig sind: Wenn dies nicht der Fall wäre, wären diese nicht unbedingt binomisch.
xichn0n1
Dies bedeutet, dass
S01/ n0= S01S00+ S01→pp0 und S11/ n1= S11S10+ S11→pp1.
Die wichtigste Erkenntnis hier: Unsere Bernoulli-Wohnmobile sind während unsere binomialen Wohnmobile , aber beide die gleiche Erfolgswahrscheinlichkeit haben. Dies ist der Grund, warum diese Kontingenztabellenanteile dasselbe schätzen wie eine logistische Regression auf Beobachtungsebene. Es ist nicht nur ein Zufall mit der Tabelle, sondern eine direkte Folge der von uns getroffenen Verteilungsannahmen.Y.ich| xich= j ∼ Bern ( pj)Sj 1∼ Bin ( nj, pj)