Ist es sinnvoll, die logistische Regression mit binärem Ergebnis und Prädiktor zu verwenden?

18

Ich habe eine binäre Ergebnisvariable {0,1} und eine Prädiktorvariable {0,1}. Ich bin der Meinung, dass es keinen Sinn macht, logistisch zu arbeiten, wenn ich nicht andere Variablen einbeziehe und die Odds Ratio berechne.

Würde die Berechnung der Wahrscheinlichkeit bei einem binären Prädiktor nicht ausreichen, um das Quotenverhältnis zu bestimmen?

Keval
quelle

Antworten:

26

In diesem Fall können Sie Ihre Daten zu wobei die Anzahl der Instanzen für und mit . Angenommen, es gibt insgesamt Beobachtungen. Sijx=iy=ji,j{0,1}n

XY010S00S011S10S11
Sijx=iy=ji,j{0,1}n

Wenn wir das Modell (wobei unsere Verknüpfungsfunktion ist), werden wir Es wird festgestellt, dass das Protokoll des Erfolgsanteils ist, wenn und das Protokoll des Erfolgsanteils ist, wenn . Mit anderen Worten, \ hat \ beta_0 = g \ left (\ frac {S_ {01}} {S_ {00} + S_ {01}} \ right) und \ hat \ beta_0 + \ hat \ beta_1 = g \ left ( \ frac {S_ {11}} {S_ {10} + S_ {11}} \ right). g β 0 x i = 0 β 0 + β 1 x i = 1 β 0 = g ( S 01pi=g1(xiTβ)=g1(β0+β11xi=1)gβ^0xich=0β^0+β^1xich=1 β 0+ β 1=g(S11

β^0=G(S01S00+S01)
β^0+β^1=G(S11S10+S11).

Lassen Sie uns das überprüfen R.

n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)

tbl <- table(x=x,y=y)

mod <- glm(y ~ x, family=binomial())

# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])

# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])

Die logistischen Regressionskoeffizienten sind also genau Transformationen von Proportionen, die aus der Tabelle stammen.

Das Fazit ist, dass wir diesen Datensatz sicherlich mit einer logistischen Regression analysieren können, wenn wir Daten aus einer Reihe von Bernoulli-Zufallsvariablen haben, aber es stellt sich heraus, dass dies nichts anderes ist, als die resultierende Kontingenztabelle direkt zu analysieren.


Ich möchte erläutern, warum dies aus theoretischer Sicht funktioniert. Wenn wir eine logistische Regression anpassen, verwenden wir das Modell . Wir entscheiden uns dann, den Mittelwert als Transformation eines linearen Prädiktors in oder in Symbolen zu modellieren . In unserem Fall haben wir nur zwei eindeutige Werte von , und daher gibt es nur zwei eindeutige Werte von , beispielsweise und . Aufgrund unserer Unabhängigkeitsannahme haben wir und Y.ich|xichBern(pich)xichpich=G-1(β0+β1xich)xichpichp0p1

ich:xich=0Y.ich=S01Behälter(n0,p0)
ich:xich=1Y.ich=S11Behälter(n1,p1).
Beachten Sie, wie wir die Tatsache verwenden, dass und wiederum und nicht zufällig sind: Wenn dies nicht der Fall wäre, wären diese nicht unbedingt binomisch.xichn0n1

Dies bedeutet, dass

S01/n0=S01S00+S01pp0 und S11/n1=S11S10+S11pp1.

Die wichtigste Erkenntnis hier: Unsere Bernoulli-Wohnmobile sind während unsere binomialen Wohnmobile , aber beide die gleiche Erfolgswahrscheinlichkeit haben. Dies ist der Grund, warum diese Kontingenztabellenanteile dasselbe schätzen wie eine logistische Regression auf Beobachtungsebene. Es ist nicht nur ein Zufall mit der Tabelle, sondern eine direkte Folge der von uns getroffenen Verteilungsannahmen.Y.ich|xich=jBern(pj)Sj1Behälter(nj,pj)

jld
quelle
1

Wenn Sie mehr als einen Prädiktor haben und alle Prädiktoren Binärvariablen sind, können Sie ein Modell mithilfe der logischen Regression [1] anpassen (beachten Sie, dass es sich um "Logik" und nicht um "Logistik" handelt). Dies ist nützlich, wenn Sie glauben, dass Interaktionseffekte zwischen Ihren Prädiktoren eine herausragende Rolle spielen. Es gibt eine Implementierung in R ( LogicRegPaket).

[1] Ruczinski, I., Kooperberg, C. & LeBlanc, M. (2003). Logische Regression. Journal of Computational and Graphical Statistics, 12 (3), 475-511.

HoraceT
quelle
1
Die Frage bezieht sich speziell auf einen Regressor, daher sollte Ihre Antwort besser als Kommentar dienen.
Richard Hardy