Wenn Sie Log-Likelihood wirklich gemeint haben, lautet die Antwort: Es ist nicht immer Null.
Betrachten Sie zum Beispiel Poisson-Daten: yich∼ Poisson ( μich) , i = 1 , ... , n . Das Log-Likelihood für Y.= ( y1, … , Yn) ist gegeben durch:
ℓ ( μ ; Y) = - ∑i = 1nμich+ ∑i = 1nyichLogμich- ∑i = 1nLog( yich! ) .( ∗ )
Unterscheide ℓ ( μ ; Y) in ( ∗ ) in Bezug auf μich und setze es auf 0 (so erhalten wir die MLE für das gesättigte Modell):
- 1 + yichμich= 0.
Lösung dieses für
μichzu erhalten
, μ i=yi,Substitution
von μ iwieder in
(*)für
μigebedass das Log-Likelihood des gesättigte Modells ist:
l( μ ;Y)=n ∑ i=1yi(logyi-1)-n ∑ i=μ^ich= yichμ^ich( ∗ )μichℓ ( μ^; Y.) = ∑i = 1nyich( logyich- 1 ) - ∑i = 1nLog( yich! ) ≤ 0
es sei denn
yichganz besondere Werte annehmen.
Auf der Hilfeseite der R
Funktion glm
wird deviance
dieses Problem im Dokument unter dem Element folgendermaßen erläutert:
deviance
Bis zu einer Konstanten, minus der doppelten maximalen Log-Wahrscheinlichkeit. Wo sinnvoll, wird die Konstante so gewählt, dass ein gesättigtes Modell die Abweichung Null hat.
Beachten Sie, dass erwähnt wurde, dass die Abweichung anstelle der logarithmischen Wahrscheinlichkeit des gesättigten Modells Null ist.
Wahrscheinlich wollten Sie wirklich bestätigen, dass "die Abweichung des gesättigten Modells immer als Null angegeben wird", was seit der Abweichung per Definition zutrifft (siehe Abschnitt 4.5.1 der Kategoriellen Datenanalyse (2. Auflage) von Alan Agresti) ist die Wahrscheinlichkeitsverhältnisstatistik eines bestimmten GLM zum gesättigten Modell. Das constant
in der R-Dokumentation Gesagte ist tatsächlich doppelt so hoch wie die maximale Log-Wahrscheinlichkeit des gesättigten Modells.
In Bezug auf Ihre Aussage "Die Art und Weise, wie die Formel für die Abweichung angegeben wird, legt jedoch nahe, dass diese Menge manchmal nicht Null ist.", Ist dies wahrscheinlich auf den Missbrauch der Verwendung des Begriffs Abweichung zurückzuführen . Beispielsweise wird in R die Wahrscheinlichkeitsverhältnisstatistik des Vergleichs zweier beliebiger (verschachtelter) Modelle und M 2 auch als Abweichung bezeichnet, die genauer als die Differenz zwischen der Abweichung von M 1 und der Abweichung von M bezeichnet werden würde 2 , wenn wir uns genau an die Definition in Agrestis Buch halten.M1M2M1M2
Fazit
Die log-Wahrscheinlichkeit des gesättigten Modells ist im Allgemeinen ungleich Null.
Die Abweichung (in der ursprünglichen Definition) des gesättigten Modells ist Null.
Die Abweichungsausgabe von Software (wie R) ist im Allgemeinen ungleich Null, da sie tatsächlich etwas anderes bedeutet (den Unterschied zwischen Abweichungen).
Das Folgende ist die Herleitung für den allgemeinen Fall der Exponentialfamilie und ein anderes konkretes Beispiel. Angenommen, die Daten stammen aus der Exponentialfamilie (siehe Modern Applied Statistics mit S , Kapitel ):
f ( y i ; θ i , φ ) = exp [ A i ( y i θ i - γ ( θ i ) ) / φ + τ ( y i , φ / A i ) ] .7
f( yich; θich, φ ) = exp[ Aich( yichθich- γ( θich) ) / φ + τ( yich, φ / Aich) ] .(1)
wobei
bekannte frühere Gewichte und
φ Dispersions- / Skalenparameter sind (für viele Fälle wie Binomial und Poisson ist dieser Parameter bekannt, während für andere Fälle wie Normal und Gamma dieser Parameter unbekannt ist). Dann wird das Log-Likelihood ist gegeben durch:
l ( θ , φ ; Y ) = n Σ i = 1 A i ( y i θ i - γ ( θ i ) ) / φ + n Σ i = 1 τEINichφ
Wie im Poisson-Beispiel können die Parameter des gesättigten Modells durch Lösen der folgenden
Bewertungsfunktiongeschätzt werden:
0 = U ( θ i ) = ∂ ℓ ( θ , φ ; Y )ℓ ( θ , φ ; Y) = ∑i = 1nEINich( yichθich- γ( θich) ) / φ + ∑i = 1nτ( yich, φ / Aich) .
0 = U( θich) = ∂ℓ ( θ , φ ; Y)∂θich= Aich( yich- γ′( θich) )φ
θ^ich
ℓ ( θ^, φ ; Y.) = ∑i = 1nEINich( yichθ^ich- γ( θ^ich) ) / φ + ∑i = 1nτ( yich, φ / Aich).(∗∗)
(∗∗)Γ(α,β)
f( y; α , β) = βαΓ ( α )e- βyyα - 1,y> 0 , α > 0 , β> 0 ,
f( 1 )φ = 1α,θ = - βα,
ff( y; θ , φ ) = exp[ θ y- ( - log( - θ ) )φ+ τ( y, φ ) ] ,
τ( y,φ)=−logφφ+(1φ−1)logy−logΓ(φ−1).
θ^i=−1yi∑i=1n1φ[θ^iyi−(−log(−θ^i))]=∑i=1n1φ[−1−log(yi)]≠0,
yi
Die Log-Wahrscheinlichkeit istLogL ( y ; X , β )= ∑i = 1nyichLog( πich1 - πich) +log( 1 - πich)= ∑i = 1nyichlogit ( πich) + log( 1 - πich)= ∑i = 1nyichx⊺ichβ + log( 1 - invlogit ( x⊺ichβ ) )= ∑i = 1nyichx⊺ichβ + log( invlogit ( - x⊺ichβ ) )= ∑i = 1nyichx⊺ichβ - log( 1 + exp[ x⊺ichβ ] ) )
Wenn Sie die Ableitungen für alle Koeffizienten nehmen, erhalten Sie∇ ℓ ( β ) = ∑i = 1nyichxich- exp[ x⊺ichβ ]( 1 + exp[ x⊺ichβ ] )xich.(2)
Setzen Sie diesen Ausdruck gleich0 und lösen für β wird dir deine antwort geben. Normalerweise kann dies nicht analytisch durchgeführt werden, was die Beliebtheit / Notwendigkeit der Verwendung iterativer Algorithmen zur Anpassung an dieses Modell erklärt. Bei einem gesättigten Modell ist dies jedoch möglich.
Um das gesättigte Modell zu finden, geben wir jeder Zeile einen eigenen Koeffizienten. Soβ ∈ Rn und die Entwurfsmatrix multipliziert mit dem Koeffizientenvektor ist
X β= ⎡⎣⎢⎢⎢⎢⎢10⋮001⋮0⋯⋯⋱⋯00⋮1⎤⎦⎥⎥⎥⎥⎥⎡⎣⎢⎢⎢⎢β1β2⋮βn⎤⎦⎥⎥⎥⎥.
Beachten Sie, dass insbesonderex⊺ichβ = βich .
Also nehmen Sie diej Die dritte Zeile von Gleichung (2) gibt uns
∑i = 1nyichxich , j= ∑i = 1nexp[ x⊺ichβ ]( 1 +exp[ x⊺ichβ ] )xich , j
Das kann nur wahr sein, wenn für jede Beobachtungich :
quelle
glm( cbind(k, n-k) ~ x + ...
), dann hat das gesättigte Modell keine Log-Wahrscheinlichkeit Null.@Alex: Ja, das stimmt. Zumindest für diskrete Verteilungen. Bei kontinuierlichen Verteilungen würde es darauf ankommen, dass die Dichte gleich 1 ist, was nicht unbedingt sinnvoll und daher nicht sinnvoll ist. Etwas allgemeiner ausgedrückt gibt Ihnen die Log-Wahrscheinlichkeit des gesättigten Modells eine Obergrenze für die Leistung jedes Modells, das Ihrer Annahme der zugrunde liegenden Verteilungsfamilie folgt. Mit anderen Worten, die logarithmische Wahrscheinlichkeit eines gesättigten Binomialmodells ist für den gegebenen Datensatz (X, Y) "so gut wie es geht", vorausgesetzt, Y ist binomial. Es ist sinnvoll, Ihr GLM-Modell mit dieser Obergrenze zu vergleichen, im Gegensatz zu beispielsweise 100% (oder ähnlichem), da Ihr Modell von Natur aus von Ihrer Annahme über die Antwortverteilung abhängig ist.
quelle