Ist in einem GLM die Log-Wahrscheinlichkeit des gesättigten Modells immer Null?

14

Als Teil der Ausgabe eines verallgemeinerten linearen Modells werden die Null- und Restabweichung verwendet, um das Modell zu bewerten. Die Formeln für diese Größen werden häufig als Log-Wahrscheinlichkeit des gesättigten Modells ausgedrückt. Beispiel: /stats//a/113022/22199 , Logistic Regression: So erhalten Sie ein gesättigtes Modell

Das gesättigte Modell ist, soweit ich es verstehe, das Modell, das perfekt zur beobachteten Reaktion passt. Daher wird die log-Wahrscheinlichkeit des gesättigten Modells an den meisten Stellen, die ich gesehen habe, immer mit Null angegeben.

Die Art und Weise, wie die Formel für die Abweichung angegeben wird, legt jedoch nahe, dass diese Größe manchmal nicht Null ist. (Als ob es immer Null wäre, warum sollte man sich die Mühe machen, es einzuschließen?)

In welchen Fällen kann es nicht Null sein? Wenn es niemals ungleich Null ist, warum sollte es dann in die Formel für die Abweichung aufgenommen werden?

Alex
quelle

Antworten:

18

Wenn Sie Log-Likelihood wirklich gemeint haben, lautet die Antwort: Es ist nicht immer Null.

Betrachten Sie zum Beispiel Poisson-Daten: yiPoisson(μi),i=1,,n . Das Log-Likelihood für Y=(y1,,yn) ist gegeben durch:

()(μ;Y.)=-ich=1nμich+ich=1nyichLogμich-ich=1nLog(yich!).

Unterscheide (μ;Y.) in () in Bezug auf μich und setze es auf 0 (so erhalten wir die MLE für das gesättigte Modell):

-1+yichμich=0.
Lösung dieses fürμichzu erhalten , μ i=yi,Substitution von μ iwieder in(*)fürμigebedass das Log-Likelihood des gesättigte Modells ist: l( μ ;Y)=n i=1yi(logyi-1)-n i=μ^ich=yichμ^ich()μich
(μ^;Y.)=ich=1nyich(Logyich-1)-ich=1nLog(yich!)0
es sei dennyichganz besondere Werte annehmen.

Auf der Hilfeseite der RFunktion glmwird deviancedieses Problem im Dokument unter dem Element folgendermaßen erläutert:

deviance Bis zu einer Konstanten, minus der doppelten maximalen Log-Wahrscheinlichkeit. Wo sinnvoll, wird die Konstante so gewählt, dass ein gesättigtes Modell die Abweichung Null hat.

Beachten Sie, dass erwähnt wurde, dass die Abweichung anstelle der logarithmischen Wahrscheinlichkeit des gesättigten Modells Null ist.

Wahrscheinlich wollten Sie wirklich bestätigen, dass "die Abweichung des gesättigten Modells immer als Null angegeben wird", was seit der Abweichung per Definition zutrifft (siehe Abschnitt 4.5.1 der Kategoriellen Datenanalyse (2. Auflage) von Alan Agresti) ist die Wahrscheinlichkeitsverhältnisstatistik eines bestimmten GLM zum gesättigten Modell. Das constantin der R-Dokumentation Gesagte ist tatsächlich doppelt so hoch wie die maximale Log-Wahrscheinlichkeit des gesättigten Modells.

In Bezug auf Ihre Aussage "Die Art und Weise, wie die Formel für die Abweichung angegeben wird, legt jedoch nahe, dass diese Menge manchmal nicht Null ist.", Ist dies wahrscheinlich auf den Missbrauch der Verwendung des Begriffs Abweichung zurückzuführen . Beispielsweise wird in R die Wahrscheinlichkeitsverhältnisstatistik des Vergleichs zweier beliebiger (verschachtelter) Modelle und M 2 auch als Abweichung bezeichnet, die genauer als die Differenz zwischen der Abweichung von M 1 und der Abweichung von M bezeichnet werden würde 2 , wenn wir uns genau an die Definition in Agrestis Buch halten.M1M2M1M2

Fazit

  1. Die log-Wahrscheinlichkeit des gesättigten Modells ist im Allgemeinen ungleich Null.

  2. Die Abweichung (in der ursprünglichen Definition) des gesättigten Modells ist Null.

  3. Die Abweichungsausgabe von Software (wie R) ist im Allgemeinen ungleich Null, da sie tatsächlich etwas anderes bedeutet (den Unterschied zwischen Abweichungen).


Das Folgende ist die Herleitung für den allgemeinen Fall der Exponentialfamilie und ein anderes konkretes Beispiel. Angenommen, die Daten stammen aus der Exponentialfamilie (siehe Modern Applied Statistics mit S , Kapitel ): f ( y i ; θ i , φ ) = exp [ A i ( y i θ i - γ ( θ i ) ) / φ + τ ( y i , φ / A i ) ] .7

(1)f(yich;θich,φ)=exp[EINich(yichθich-γ(θich))/φ+τ(yich,φ/EINich)].
wobei bekannte frühere Gewichte und φ Dispersions- / Skalenparameter sind (für viele Fälle wie Binomial und Poisson ist dieser Parameter bekannt, während für andere Fälle wie Normal und Gamma dieser Parameter unbekannt ist). Dann wird das Log-Likelihood ist gegeben durch: l ( θ , φ ; Y ) = n Σ i = 1 A i ( y i θ i - γ ( θ i ) ) / φ + n Σ i = 1 τEINichφ Wie im Poisson-Beispiel können die Parameter des gesättigten Modells durch Lösen der folgendenBewertungsfunktiongeschätzt werden: 0 = U ( θ i ) = ( θ , φ ; Y )
(θ,φ;Y.)=ich=1nEINich(yichθich-γ(θich))/φ+ich=1nτ(yich,φ/EINich).
0=U(θich)=(θ,φ;Y.)θich=EINich(yich-γ(θich))φ

θ^ich

()(θ^,φ;Y)=i=1nAi(yiθ^iγ(θ^i))/φ+i=1nτ(yi,φ/Ai).

()Γ(α,β)


f(y;α,β)=βαΓ(α)e-βyyα-1,y>0,α>0,β>0,
f(1)
φ=1α,θ=-βα,
f
f(y;θ,φ)=exp[θy-(-Log(-θ))φ+τ(y,φ)],
τ(y,φ)=logφφ+(1φ1)logylogΓ(φ1).
θ^i=1yi
i=1n1φ[θ^iyi(log(θ^i))]=i=1n1φ[1log(yi)]0,
yi
Zhanxiong
quelle
1
Ist die Log-Wahrscheinlichkeit nur dann Null, wenn das Modell jedem der möglichen Ergebnisse eine Wahrscheinlichkeit von 100% zuordnen kann?
Alex
0τ0
Ihre Ableitung ist sehr gut, aber der formale Beweis ist im Moment etwas über meinem Kopf. Vielen Dank für Ihr Beispiel mit dem Poisson-Modell. Was ich aus diesem Beispiel herausgenommen habe, ist, dass das Poisson-Modell dem beobachteten Ergebnis keine 100-prozentige Wahrscheinlichkeit zuweisen kann, wenn ein Wert für den Poisson-Mittelwert vorliegt, sodass die Wahrscheinlichkeit nicht Null sein kann.
Alex
100%y1,,ynY.P(Y.=y1)+P(Y.=y2)++P(Y.=yn)<1
1
Y.P(Y.=yich)<1ich
4

0

(1)L(y;X,β)=ich=1nf(yich;xich,β)=ich=1nπichyich(1-πich)1-yich=ich=1n(πich1-πich)yich(1-πich)
wo πich=Invlogit(xichβ).

Die Log-Wahrscheinlichkeit ist

LogL(y;X,β)=ich=1nyichLog(πich1-πich)+Log(1-πich)=ich=1nyichlogit(πich)+Log(1-πich)=ich=1nyichxichβ+Log(1-Invlogit(xichβ))=ich=1nyichxichβ+Log(Invlogit(-xichβ))=ich=1nyichxichβ-Log(1+exp[xichβ]))

Wenn Sie die Ableitungen für alle Koeffizienten nehmen, erhalten Sie

(2)(β)=ich=1nyichxich-exp[xichβ](1+exp[xichβ])xich.

Setzen Sie diesen Ausdruck gleich 0 und lösen für βwird dir deine antwort geben. Normalerweise kann dies nicht analytisch durchgeführt werden, was die Beliebtheit / Notwendigkeit der Verwendung iterativer Algorithmen zur Anpassung an dieses Modell erklärt. Bei einem gesättigten Modell ist dies jedoch möglich.

Um das gesättigte Modell zu finden, geben wir jeder Zeile einen eigenen Koeffizienten. SoβRn und die Entwurfsmatrix multipliziert mit dem Koeffizientenvektor ist

Xβ=[100010001][β1β2βn].

Beachten Sie, dass insbesondere xichβ=βich.

Also nehmen Sie die jDie dritte Zeile von Gleichung (2) gibt uns

ich=1nyichxich,j=ich=1nexp[xichβ](1+exp[xichβ])xich,j

Das kann nur wahr sein, wenn für jede Beobachtung ich:

yich=Invlogit(βich)
oder mit anderen Worten jeweils βich ist plus oder minus unendlich (wenn yich ist 1 oder 0, beziehungsweise). Wir können diese Parameter wieder in (1) einfügen, um die maximale Wahrscheinlichkeit zu erhalten:
ich=1nπ^ichyich(1-π^ich)1-yich=1n=1.
Klar ist das Protokoll davon 0.

Taylor
quelle
Dies setzt jedoch nicht gruppierte Daten voraus . Wenn Sie Gruppen mit habennich>1(und die gleichen kovariaten Werte) (in R, zum Beispiel unter Verwendung der Form glm( cbind(k, n-k) ~ x + ... ), dann hat das gesättigte Modell keine Log-Wahrscheinlichkeit Null.
kjetil b halvorsen
@kjetilbhalvorsen oh guter Punkt. Ich habe nie versucht, das zu überprüfen
Taylor
1

@Alex: Ja, das stimmt. Zumindest für diskrete Verteilungen. Bei kontinuierlichen Verteilungen würde es darauf ankommen, dass die Dichte gleich 1 ist, was nicht unbedingt sinnvoll und daher nicht sinnvoll ist. Etwas allgemeiner ausgedrückt gibt Ihnen die Log-Wahrscheinlichkeit des gesättigten Modells eine Obergrenze für die Leistung jedes Modells, das Ihrer Annahme der zugrunde liegenden Verteilungsfamilie folgt. Mit anderen Worten, die logarithmische Wahrscheinlichkeit eines gesättigten Binomialmodells ist für den gegebenen Datensatz (X, Y) "so gut wie es geht", vorausgesetzt, Y ist binomial. Es ist sinnvoll, Ihr GLM-Modell mit dieser Obergrenze zu vergleichen, im Gegensatz zu beispielsweise 100% (oder ähnlichem), da Ihr Modell von Natur aus von Ihrer Annahme über die Antwortverteilung abhängig ist.

bettmensch88
quelle