Logistische Regression: Bernoulli vs. Binomial Response Variables

32

Ich möchte eine logistische Regression mit der folgenden Binomialantwort und mit und als meinen Prädiktoren durchführen. X1X2

Bildbeschreibung hier eingeben

Ich kann die gleichen Daten wie Bernoulli-Antworten im folgenden Format präsentieren.

Bildbeschreibung hier eingeben

Die logistischen Regressionsausgaben für diese beiden Datensätze sind größtenteils gleich. Die Abweichungsreste und der AIC sind unterschiedlich. (Der Unterschied zwischen der Nullabweichung und der Restabweichung ist in beiden Fällen gleich - 0,228.)

Das Folgende sind die Regressionsausgaben von R. Die Datensätze heißen binom.data und bern.data.

Hier ist die Binomialausgabe.

Call:
glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, 
    family = binomial, data = binom.data)

Deviance Residuals: 
[1]  0  0  0

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance:  2.2846e-01  on 2  degrees of freedom
Residual deviance: -4.9328e-32  on 0  degrees of freedom
AIC: 11.473

Number of Fisher Scoring iterations: 4

Hier ist die Bernoulli-Ausgabe.

Call:
glm(formula = Success ~ X1 + X2, family = binomial, data = bern.data)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6651  -1.3537   0.7585   0.9281   1.0108  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 15.276  on 11  degrees of freedom
Residual deviance: 15.048  on  9  degrees of freedom
AIC: 21.048

Number of Fisher Scoring iterations: 4

Meine Fragen:

1) Ich kann sehen, dass die Punktschätzungen und Standardfehler zwischen den beiden Ansätzen in diesem speziellen Fall äquivalent sind. Trifft diese Äquivalenz im Allgemeinen zu?

2) Wie kann die Antwort auf Frage 1 mathematisch begründet werden?

3) Warum unterscheiden sich die Abweichungsreste und der AIC?

Ein Wissenschaftler
quelle

Antworten:

24

1) ja Sie können Binomialdaten von Personen mit den gleichen Kovariaten aggregieren / de- aggregieren (?). Dies ergibt sich aus der Tatsache, dass die ausreichende Statistik für ein Binomialmodell die Gesamtzahl der Ereignisse für jeden Kovariatenvektor ist. und der Bernoulli ist nur ein Sonderfall des Binomials. Intuitiv ist jede Bernoulli-Studie, aus der ein Binomialergebnis besteht, unabhängig. Es sollte also keinen Unterschied geben, ob diese als einzelnes Ergebnis oder als separate Einzelstudien gewertet werden.

2) Angenommen, wir haben eindeutige Kovariatenvektoren x 1 , x 2 , , x n , von denen jeder ein Binomialergebnis für N i -Versuche hat, dh Y iB i n ( N i , p i ), das Sie angegeben haben ein logistisches Regressionsmodell, so l o g i t ( p i ) = K Σ k = 1 β k x i knx1,x2,,xnNi

YiBin(Ni,pi)
logit(pi)=k=1Kβkxik
obwohl wir später sehen werden, dass dies nicht wichtig ist.

Die Log-Wahrscheinlichkeit für dieses Modell ist und wir maximieren dies in Bezug auf (in den Begriffen), um unsere Parameterschätzungen zu erhalten.βpi

(β;Y)=i=1nlog(NiYi)+Yilog(pi)+(NiYi)log(1pi)
βpi

Betrachten wir nun, dass wir für jedes das binomische Ergebnis in einzelne Bernoulli / binäre Ergebnisse , wie Sie es getan haben. Insbesondere schaffen Das heißt, die erste sind 1s und der Rest sind 0s. Dies ist genau das, was Sie getan haben - aber Sie hätten auch die erste als 0 und den Rest als 1 oder eine andere Reihenfolge , oder?i=1,,nNi

Zi1,,ZiYi=1
Zi(Yi+1),,ZiNi=0
Yi(NiYi)

Ihr zweites Modell besagt, dass dasselbe Regressionsmodell für wie oben. Die Log-Wahrscheinlichkeit für dieses Modell ist und aufgrund der Art und Weise, wie wir unsere definiert haben , kann dies zu was ziemlich vertraut aussehen sollte.

ZijBernoulli(pi)
pi
(β;Z)=i=1nj=1NiZijlog(pi)+(1Zij)log(1pi)
Zij
(β;Y)=i=1nYilog(pi)+(NiYi)log(1pi)

Um die Schätzungen im zweiten Modell zu erhalten, maximieren wir diese in Bezug auf . Der einzige Unterschied zwischen dieser und der ersten Log-Wahrscheinlichkeit ist der Term , der in Bezug auf konstant ist und daher die Maximierung nicht beeinflusst, und wir werden dieselben Schätzungen erhalten.βlog(NiYi)β

3) Jede Beobachtung hat einen Abweichungsrest. Im Binomialmodell sind sie wobei die geschätzte Wahrscheinlichkeit aus Ihrem Modell ist. Beachten Sie, dass Ihr Binomialmodell gesättigt ist (0 verbleibende Freiheitsgrade) und passt: für alle Beobachtungen, also für alle .

Di=2[Yilog(Yi/Nip^i)+(NiYi)log(1Yi/Ni1p^i)]
p^ip^i=Yi/NiDi=0i

Im Bernoulli-Modell ist Abgesehen davon, dass Sie jetzt Abweichungsreste (anstelle von wie bei den Binomialdaten) sind dies entweder oder abhängig davon, ob oder , und ist offensichtlich nicht dasselbe wie oben. Selbst wenn Sie diese über summieren , um eine Summe der Abweichungsreste für jedes , erhalten Sie nicht dasselbe:

Dij=2[Zijlog(Zijp^i)+(1Zij)log(1Zij1p^i)]
i=1nNin
Dij=2log(p^i)
Dij=2log(1p^i)
Zij=10ji
Di=j=1NiDij=2[Yilog(1p^i)+(NiYi)log(11p^i)]

Die Tatsache, dass der AIC unterschiedlich ist (die Abweichung jedoch nicht), geht auf den konstanten Term zurück, der den Unterschied zwischen den Log-Wahrscheinlichkeiten der beiden Modelle darstellte. Bei der Berechnung der Abweichung wird diese ausgeglichen, da sie bei allen Modellen, die auf denselben Daten basieren, gleich ist. Der AIC ist definiert als und dieser kombinatorische Term ist der Unterschied zwischen den s:

AIC=2K2

AICBernoulliAICBinomial=2i=1nlog(NiYi)=9.575
Kennzeichen
quelle
Danke für deine sehr ausführliche Antwort, Mark! Entschuldigung für die Verzögerung meiner Antwort - ich war im Urlaub. 3) Angesichts der Tatsache, dass die beiden Modelle unterschiedliche Ergebnisse für Abweichungsreste und AIC liefern, welches ist richtig oder besser? a) Soweit ich weiß, können Beobachtungen mit einem Abweichungsrestwert von mehr als zwei auf eine mangelnde Übereinstimmung hinweisen, sodass die absoluten Werte der Abweichungsreste eine Rolle spielen. b) Da AIC verwendet wird, um die Anpassung zwischen verschiedenen Modellen zu vergleichen, gibt es möglicherweise keinen "richtigen" AIC. Ich würde nur die AICs von 2 Binomialmodellen oder 2 Bernoulli-Modellen vergleichen.
Ein Wissenschaftler
a) Für die Binärdaten ist > 2, wenn entweder ( und ) oder ( und ). Selbst wenn Ihr Modell perfekt zu den Binomialdaten für den ten Kovariatenvektor passt (z. B. ), werden die als willkürlich zugewiesen 1 wird . Aus diesem Grund denke ich, dass die Abweichungsreste bei den Binomialdaten sinnvoller sind. Außerdem hat die Abweichung selbst für Binärdaten nicht die üblichen Eigenschaften ... Z i j = 1 p i < e - 1 = 0,368 Z i j = 0 p i > 1 - e - 1 = 0,632 i Y i / N i = P i < 0,368 Y i Z i j D i j > 2DijZij=1p^i<e1=0.368Zij=0p^i>1e1=0.632iYi/Ni=p^i<0.368Yi ZijDij>2
Mark
1
b) Ja, der Vergleich von zwischen Modellen ist nur dann sinnvoll, wenn die für jedes Modell verwendeten Daten genau gleich sind. Vergleichen Sie also Bernoulli mit Bernoulli oder binomial mit binomial. AIC
Mark
Danke, Mark! Ihre durchdachten und ausführlichen Antworten werden sehr geschätzt!
Ein Wissenschaftler
0

Ich möchte nur einen Kommentar zum letzten Absatz abgeben: „Die Tatsache, dass der AIC unterschiedlich ist (aber die Änderung der Abweichung nicht), kehrt zu dem konstanten Ausdruck zurück, der der Unterschied zwischen den logarithmischen Wahrscheinlichkeiten der beiden Modelle war. Bei der Berechnung der Abweichungsänderung wird diese ausgeglichen, da sie bei allen Modellen auf der Grundlage der gleichen Daten gleich ist. "Leider ist dies für die Abweichungsänderung nicht korrekt. Die Abweichung enthält nicht den konstanten Term Ex (zusätzliche Konstante Term in der Log-Wahrscheinlichkeit für die Binomialdaten). Die Änderung der Abweichung hat daher nichts mit dem konstanten Term EX zu tun. Die Abweichung vergleicht ein gegebenes Modell mit dem vollständigen Modell. Die Abweichungen unterscheiden sich von Bernoulli / binär und die binomiale Modellierung, aber die Änderung der Abweichung ist nicht auf den Unterschied der Log-Likelihood-Werte des vollständigen Modells zurückzuführen. Diese Werte werden bei der Berechnung der Abweichungsänderungen aufgehoben. Daher ergeben Bernoulli- und binomiale logistische Regressionsmodelle identische Abweichungsänderungen, sofern die vorhergesagten Wahrscheinlichkeiten pij und pi gleich sind. Dies gilt in der Tat für die Probit- und andere Link-Funktionen.

Es sei lBm und lBf die Log-Likelihood-Werte von der Anpassung von Modell m und Vollmodell f an Bernoulli-Daten. Die Abweichung ist dann

    DB=2(lBf - lBm)=-2(lBm – lBf).

Obwohl das lBf für die Binärdaten Null ist, haben wir den DB nicht vereinfacht und beibehalten. Die Abweichung von der binomialen Modellierung mit den gleichen Kovariaten ist

    Db=2(lbf+Ex – (lbm+Ex))=2(lbf – lbm) = -2(lbm – lbf)

Dabei sind lbf + Ex und lbm + Ex die Log-Likelihood-Werte der an die Binomialdaten angepassten Modelle full und m. Der extra konstante Term (Ex) verschwindet von der rechten Seite des Db. Betrachten Sie nun die Abweichungsänderung von Modell 1 zu Modell 2. Bei der Bernoulli-Modellierung haben wir die Abweichungsänderung von

    DBC=DB2-DB1=2(lBf – lBm2)-2(lBf – lBm1) =2(lBm1 – lBm2).

Ebenso ist die Änderung der Abweichung von der Binomialanpassung

    DbC=DB2-DB1=2(lbf – lbm2)-2(lbf – lbm1) =2(lbm1 – lbm2).

Daraus folgt sofort, dass die Abweichungsänderungen frei von den Log-Likelihood-Beiträgen der Vollmodelle IBF und IBF sind. Daher erhalten wir die gleiche Abweichungsänderung, DBC = DbC, wenn lBm1 = lbm1 und lBm2 = lbm2. Wir wissen, dass dies hier der Fall ist und dass wir die gleichen Abweichungsänderungen von der Bernoulli- und Binomialmodellierung erhalten. Der Unterschied zwischen lbf und lBf führt zu den unterschiedlichen Abweichungen.

Saei
quelle
6
Wäre es möglicherweise für Sie, die Formatierung Ihrer Antwort zu bearbeiten? Leider ist es in dieser Form nicht gut lesbar. Ich würde Sie ermutigen, den Text in Absätzen zu bremsen und den Formeln Formatierungen hinzuzufügen . Es ist auch nicht immer klar, was die von Ihnen verwendeten Abkürzungen bedeuten. TEX
Tim
Vielen Dank, Tim. Ich bin mit der TEX-Formatierung nicht vertraut. Ich habe ursprünglich das Wort eingegeben, konnte es jedoch nicht kopieren und einfügen. Ich habe die Gleichungen vom Text getrennt.
Saei
Ich bin mir nicht sicher, ob Sie diesen Absatz falsch verstanden haben: Ich sagte, "der AIC ist anders ( aber die Abweichung ist nicht anders )", und der Rest des Absatzes erklärt, warum der AIC zwischen den beiden Modellen unterschiedlich ist. Ich habe nicht behauptet, dass die Änderung der Abweichung von der konstanten Laufzeit abhängt. In der Tat, sagte ich : „ Wenn die Änderung der Abweichung der Berechnung dieser [der konstante Term] aufgehoben wird , weil es das gleiche in allen Modellen auf der Basis der gleichen Daten
Mark
Das Problem ist, dass es im Text nur einen „konstanten Term“ gibt und es sich um den kombinatorischen Term (Binomialkoeffizient) handelt. Wenn Sie sagen, dass "dies" aufgehoben ist, bedeutet dies, dass der konstante Term in der Abweichung enthalten ist. Der Unterschied zwischen Abweichungen von den Bernoulli- und Binomialmodellen besteht in den Beiträgen des log-Likelihood-Wertes lbf vom vollen Modell. Die lbf variiert nicht durch verschiedene Binomialmodelle für dieselben Daten und wird bei der Berechnung der Abweichungsänderung aufgehoben.
Saei
Ah ok ich verstehe was du meinst. Ich habe meine Antwort dementsprechend bearbeitet und im Verweis auf die Änderung der Abweichung belassen, weil der Fragesteller dies ausdrücklich erwähnt hat. Die Änderung der Abweichung ist dieselbe, da die Abweichung nicht vom konstanten Term abhängt.
Mark