Maximum Likelihood Estimators - Multivariates Gaußsches

20

Kontext

Der multivariate Gauß-Faktor wird beim maschinellen Lernen häufig verwendet. Die folgenden Ergebnisse werden in vielen ML-Büchern und -Kursen ohne die Ableitungen verwendet.

Gegebene Daten in Form einer Matrix der Dimensionen , wenn wir annehmen, dass die Daten einer variaten Gaußschen Verteilung mit Parametern mean ( ) und covarianz matrix ( ) Die Maximum Likelihood Estimators sind gegeben durch: m × p p μ p × 1 p × pXm×ppμp×1Σp×p

  • μ^=1mi=1mx(i)=x¯
  • Σ^=1mi=1m(x(i)μ^)(x(i)μ^)T

Ich verstehe, dass die Kenntnis des multivariaten Gaußschen eine Voraussetzung für viele ML-Kurse ist, aber es wäre hilfreich, die vollständige Ableitung in einer in sich geschlossenen Antwort ein für alle Mal zu haben, da ich das Gefühl habe, dass viele Selbstlerner in den Statistiken herumhüpfen. Die Websites stackexchange und math.stackexchange suchen nach Antworten.


Frage

Wie lautet die vollständige Ableitung der Maximum-Likelihood-Schätzer für den multivariaten Gaußschen


Beispiele:

Diese Vorlesungsunterlagen (Seite 11) zur linearen Diskriminanzanalyse oder diese verwenden die Ergebnisse und setzen Vorkenntnisse voraus.

Es gibt auch einige Posts, die teilweise beantwortet oder geschlossen sind:

Xavier Bourret Sicotte
quelle

Antworten:

24

Ableiten der Maximum Likelihood Estimators

Es sei angenommen , daß wir Zufallsvektoren, die jeweils eine Größe von p : X ( 1 ) , X ( 2 ) , . . . , X ( m ), wobei jeder Zufallsvektor als Beobachtung (Datenpunkt) über p Variablen interpretiert werden kann . Wenn jedes X ( i ) als multivariate Gaußsche Vektoren bezeichnet wird:mpX(1),X(2),...,X(m)pX(i)

X(i)Np(μ,Σ)

Wo die Parameter unbekannt sind. Um ihre Schätzung zu erhalten, können wir die Methode der maximalen Wahrscheinlichkeit verwenden und die Log-Wahrscheinlichkeitsfunktion maximieren.μ,Σ

Man beachte , dass durch die Unabhängigkeit der Zufallsvektoren, die gemeinsame Dichte der Daten ist das Produkt der einzelnen Dichten, das heißt Π m i = 1 f X ( i ) ( x ( i ) , μ , Σ ) . Wenn Sie den Logarithmus verwenden, erhalten Sie die Log-Likelihood-Funktion{X(i),i=1,2,...,m}i=1mfX(i)(x(i);μ,Σ)

l(μ,Σ|x(i))=logi=1mfX(i)(x(i)|μ,Σ)=log i=1m1(2π)p/2|Σ|1/2exp(12(x(i)μ)TΣ1(x(i)μ))=i=1m(p2log(2π)12log|Σ|12(x(i)μ)TΣ1(x(i)μ))

l(μ,Σ;)=mp2log(2π)m2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)

Herleiten μμ^

Um die Ableitung in Bezug auf und gleich Null zu sein, verwenden wir die folgende Matrixkalkülidentität:μ

wennw nicht vonAabhängtundAsymmetrisch ist.wTAww=2AwwAA

μl(μ,Σ|x(i))=i=1mΣ1(μx(i))=0Since Σ is positive definite0=mμi=1mx(i)μ^=1mi=1mx(i)=x¯

Welches wird oft der mittlere Vektor der Stichprobe genannt.

Deriving ΣΣ^

Das Ableiten des MLE für die Kovarianzmatrix erfordert mehr Arbeit und die Verwendung der folgenden Eigenschaften der linearen Algebra und des Kalküls:

  • Die Spur ist bei zyklischen Permutationen von Matrixprodukten invariant: tr[ACB]=tr[CAB]=tr[BCA]
  • Da skalar ist, können wir seine Spur nehmen und denselben Wert erhalten: x t A x = t r [ x T A x ] = t r [ x t x A ]xTAxxtAx=tr[xTAx]=tr[xtxA]
  • Atr[AB]=BT
  • Alog|A|=AT

Durch die Kombination dieser Eigenschaften können wir berechnen

AxtAx=Atr[xTxA]=[xxt]T=xTTxT=xxT

Which is the outer product of the vector x with itself.

We can now re-write the log-likelihood function and compute the derivative w.r.t. Σ1 (note C is constant)

l(μ,Σ|x(i))=Cm2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)=C+m2log|Σ1|12i=1mtr[(x(i)μ)(x(i)μ)TΣ1]Σ1l(μ,Σ|x(i))=m2Σ12i=1m(x(i)μ)(x(i)μ)T  Since ΣT=Σ

Equating to zero and solving for Σ

0=mΣi=1m(x(i)μ)(x(i)μ)TΣ^=1mi=1m(x(i)μ^)(x(i)μ^)T

Sources

Xavier Bourret Sicotte
quelle
Alternative proofs, more compact forms, or intuitive interpretation are welcome !
Xavier Bourret Sicotte
In the derivation for μ, why does Σ need to be positive definite? Does it seem enough that Σ is invertible? For an invertible matrix A, Ax=0 only when x=0?
Tom Bennett
To clarify, Σ is an m×m matrix that may have finite diagonal and non-diagonal components indicating correlation between vectors, correct? If that is the case, in what sense are these vectors independent? Also, why is the joint probability function equal to the likelihood? Shouldn't the joint density, f(x,y), be equal to the likelihood multiplied by the prior, i.e. f(x|y)f(y)?
Mathews24
1
@TomBennett the sigma matrix is positive definite by definition - see stats.stackexchange.com/questions/52976/… for the proof. The matrix calculus identity requires the matrix to be symmetric, not positive definite. But since positive definite matrices are always symmetric that works
Xavier Bourret Sicotte
1
Yes indeed - independence between observations allow to get the likelihood - the wording may be unclear faie enough - this is the multivariate version of the likelihood. The prior is still irrelevant regardless
Xavier Bourret Sicotte
5

Ein alternativer Beweis für Σ^ das nimmt die Ableitung in Bezug auf Σ direkt:

Aufnehmen mit der Log-Wahrscheinlichkeit wie oben:

(μ,Σ)=Cm2log|Σ|12i=1mtr[(x(i)μ)TΣ1(x(i)μ)]=C12(mlog|Σ|+i=1mtr[(x(i)μ)(x(i)μ)TΣ1])=C12(mlog|Σ|+tr[SμΣ1])
where Sμ=i=1m(x(i)μ)(x(i)μ)T and we have used the cyclic and linear properties of tr. To compute /Σ we first observe that
Σlog|Σ|=ΣT=Σ1
by the fourth property above. To take the derivative of the second term we will need the property that
Xtr(AX1B)=(X1BAX1)T.
(from The Matrix Cookbook, equation 63). Applying this with B=I we obtain that
Σtr[SμΣ1]=(Σ1SμΣ1)T=Σ1SμΣ1
because both Σ and Sμ are symmetric. Then
Σ(μ,Σ)mΣ1Σ1SμΣ1.
Setting this to 0 and rearranging gives
Σ^=1mSμ.

This approach is more work than the standard one using derivatives with respect to Λ=Σ1, and requires a more complicated trace identity. I only found it useful because I currently need to take derivatives of a modified likelihood function for which it seems much harder to use /Σ1 than /Σ.

Eric Kightley
quelle