Ableiten der Maximum Likelihood Estimators
Es sei angenommen , daß wir Zufallsvektoren, die jeweils eine Größe von p : X ( 1 ) , X ( 2 ) , . . . , X ( m ), wobei jeder Zufallsvektor als Beobachtung (Datenpunkt) über p Variablen interpretiert werden kann . Wenn jedes X ( i ) als multivariate Gaußsche Vektoren bezeichnet wird:mpX(1),X(2),...,X(m)pX( i )
X( i )∼ Np( μ , Σ )
Wo die Parameter unbekannt sind. Um ihre Schätzung zu erhalten, können wir die Methode der maximalen Wahrscheinlichkeit verwenden und die Log-Wahrscheinlichkeitsfunktion maximieren.μ , Σ
Man beachte , dass durch die Unabhängigkeit der Zufallsvektoren, die gemeinsame Dichte der Daten ist das Produkt der einzelnen Dichten, das heißt Π m i = 1 f X ( i ) ( x ( i ) , μ , Σ ) . Wenn Sie den Logarithmus verwenden, erhalten Sie die Log-Likelihood-Funktion{X(i),i=1,2,...,m}∏mi=1fX(i)(x(i);μ,Σ)
l(μ,Σ|x(i))=log∏i=1mfX(i)(x(i)|μ,Σ)=log ∏i=1m1(2π)p/2|Σ|1/2exp(−12(x(i)−μ)TΣ−1(x(i)−μ))=∑i=1m(−p2log(2π)−12log|Σ|−12(x(i)−μ)TΣ−1(x(i)−μ))
Herleiten μμ^
Um die Ableitung in Bezug auf und gleich Null zu sein, verwenden wir die folgende Matrixkalkülidentität:μ
nicht vonAabhängtundAsymmetrisch ist.∂wTAw∂w=2AwwAA
∂∂μl(μ,Σ|x(i))0μ^=∑i=1mΣ−1(μ−x(i))=0Since Σ is positive definite=mμ−∑i=1mx(i)=1m∑i=1mx(i)=x¯
Welches wird oft der mittlere Vektor der Stichprobe genannt.
Deriving ΣΣ^
Das Ableiten des MLE für die Kovarianzmatrix erfordert mehr Arbeit und die Verwendung der folgenden Eigenschaften der linearen Algebra und des Kalküls:
- Die Spur ist bei zyklischen Permutationen von Matrixprodukten invariant: tr[ACB]=tr[CAB]=tr[BCA]
- Da skalar ist, können wir seine Spur nehmen und denselben Wert erhalten: x t A x = t r [ x T A x ] = t r [ x t x A ]xTAxxtAx=tr[xTAx]=tr[xtxA]
- ∂∂Atr[AB]=BT
- ∂∂Alog|A|=A−T
Durch die Kombination dieser Eigenschaften können wir berechnen
Which is the outer product of the vector x with itself.
We can now re-write the log-likelihood function and compute the derivative w.r.t. Σ−1 (note C is constant)
l(μ,Σ|x(i))∂∂Σ−1l(μ,Σ|x(i))=C−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)=C+m2log|Σ−1|−12∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1]=m2Σ−12∑i=1m(x(i)−μ)(x(i)−μ)T Since ΣT=Σ
Equating to zero and solving for Σ
Ein alternativer Beweis fürΣˆ das nimmt die Ableitung in Bezug auf Σ direkt:
Aufnehmen mit der Log-Wahrscheinlichkeit wie oben:ℓ ( μ , Σ )===C- m2Log| Σ | - 12∑i = 1mtr [ ( x( i )- μ )TΣ- 1( x( i )- μ ) ]C- 12(mlog|Σ|+∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1])C−12(mlog|Σ|+tr[SμΣ−1])
where Sμ=∑mi=1(x(i)−μ)(x(i)−μ)T and we have used the cyclic and linear properties of tr . To compute ∂ℓ/∂Σ we first observe that
by the fourth property above. To take the derivative of the second term we will need the property that
(from The Matrix Cookbook, equation 63).
Applying this with B=I we obtain that
because both Σ and Sμ are symmetric. Then
Setting this to 0 and rearranging gives
This approach is more work than the standard one using derivatives with respect toΛ=Σ−1 , and requires a more complicated trace identity. I only found it useful because I currently need to take derivatives of a modified likelihood function for which it seems much harder to use ∂/∂Σ−1 than ∂/∂Σ .