Ableiten der Maximum Likelihood Estimators
Es sei angenommen , daß wir Zufallsvektoren, die jeweils eine Größe von p : X ( 1 ) , X ( 2 ) , . . . , X ( m ), wobei jeder Zufallsvektor als Beobachtung (Datenpunkt) über p Variablen interpretiert werden kann . Wenn jedes X ( i ) als multivariate Gaußsche Vektoren bezeichnet wird:mpX(1),X(2),...,X(m)pX( i )
X( i )∼ Np( μ , Σ )
Wo die Parameter unbekannt sind. Um ihre Schätzung zu erhalten, können wir die Methode der maximalen Wahrscheinlichkeit verwenden und die Log-Wahrscheinlichkeitsfunktion maximieren.μ , Σ
Man beachte , dass durch die Unabhängigkeit der Zufallsvektoren, die gemeinsame Dichte der Daten ist das Produkt der einzelnen Dichten, das heißt Π m i = 1 f X ( i ) ( x ( i ) , μ , Σ ) . Wenn Sie den Logarithmus verwenden, erhalten Sie die Log-Likelihood-Funktion{X(i),i=1,2,...,m}∏mi=1fX(i)(x(i);μ,Σ)
l(μ,Σ|x(i))=log∏i=1mfX(i)(x(i)|μ,Σ)=log ∏i=1m1(2π)p/2|Σ|1/2exp(−12(x(i)−μ)TΣ−1(x(i)−μ))=∑i=1m(−p2log(2π)−12log|Σ|−12(x(i)−μ)TΣ−1(x(i)−μ))
l(μ,Σ;)=−mp2log(2π)−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)
Herleiten μμ^
Um die Ableitung in Bezug auf und gleich Null zu sein, verwenden wir die folgende Matrixkalkülidentität:μ
wennw
nicht vonAabhängtundAsymmetrisch ist.∂wTAw∂w=2AwwAA
∂∂μl(μ,Σ|x(i))0μ^=∑i=1mΣ−1(μ−x(i))=0Since Σ is positive definite=mμ−∑i=1mx(i)=1m∑i=1mx(i)=x¯
Welches wird oft der mittlere Vektor der Stichprobe genannt.
Deriving ΣΣ^
Das Ableiten des MLE für die Kovarianzmatrix erfordert mehr Arbeit und die Verwendung der folgenden Eigenschaften der linearen Algebra und des Kalküls:
- Die Spur ist bei zyklischen Permutationen von Matrixprodukten invariant: tr[ACB]=tr[CAB]=tr[BCA]
- Da skalar ist, können wir seine Spur nehmen und denselben Wert erhalten: x t A x = t r [ x T A x ] = t r [ x t x A ]xTAxxtAx=tr[xTAx]=tr[xtxA]
- ∂∂Atr[AB]=BT
- ∂∂Alog|A|=A−T
Durch die Kombination dieser Eigenschaften können wir berechnen
∂∂AxtAx=∂∂Atr[xTxA]=[xxt]T=xTTxT=xxT
Which is the outer product of the vector x with itself.
We can now re-write the log-likelihood function and compute the derivative w.r.t. Σ−1 (note C is constant)
l(μ,Σ|x(i))∂∂Σ−1l(μ,Σ|x(i))=C−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)=C+m2log|Σ−1|−12∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1]=m2Σ−12∑i=1m(x(i)−μ)(x(i)−μ)T Since ΣT=Σ
Equating to zero and solving for Σ
0Σ^=mΣ−∑i=1m(x(i)−μ)(x(i)−μ)T=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T
Sources
Ein alternativer Beweis fürΣˆ das nimmt die Ableitung in Bezug auf Σ direkt:
Aufnehmen mit der Log-Wahrscheinlichkeit wie oben:ℓ ( μ , Σ )===C- m2Log| Σ | - 12∑i = 1mtr [ ( x( i )- μ )TΣ- 1( x( i )- μ ) ]C- 12(mlog|Σ|+∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1])C−12(mlog|Σ|+tr[SμΣ−1])
where Sμ=∑mi=1(x(i)−μ)(x(i)−μ)T and we have used the cyclic and linear properties of tr . To compute ∂ℓ/∂Σ we first observe that
∂∂Σlog|Σ|=Σ−T=Σ−1
by the fourth property above. To take the derivative of the second term we will need the property that
∂∂Xtr(AX−1B)=−(X−1BAX−1)T.
(from The Matrix Cookbook, equation 63).
Applying this with B=I we obtain that
∂∂Σtr[SμΣ−1]=−(Σ−1SμΣ−1)T=−Σ−1SμΣ−1
because both Σ and Sμ are symmetric. Then
∂∂Σℓ(μ,Σ)∝mΣ−1−Σ−1SμΣ−1.
Setting this to 0 and rearranging gives
Σˆ=1mSμ.
This approach is more work than the standard one using derivatives with respect toΛ=Σ−1 , and requires a more complicated trace identity. I only found it useful because I currently need to take derivatives of a modified likelihood function for which it seems much harder to use ∂/∂Σ−1 than ∂/∂Σ .
quelle