die Beziehung zwischen der Maximierung der Wahrscheinlichkeit und der Minimierung der Kreuzentropie

Antworten:

10

Für Etiketten , die Wahrscheinlichkeit von einigen Binärdaten unter dem Bernoulli - Modell mit Parametern IS während die log-Wahrscheinlichkeit yi{0,1}θ

L(θ)=i=1np(yi=1|θ)yip(yi=0|θ)1yi
logL(θ)=i=1nyilogp(y=1|θ)+(1yi)logp(y=0|θ)

Und die binäre Kreuzentropie ist

L(θ)=1ni=1nyilogp(y=1|θ)+(1yi)logp(y=0|θ)

Es ist klar, dass .logL(θ)=nL(θ)

Wir wissen, dass der optimale Wert für beide gleich ist, weil wir beobachten können, dass wir für jedes das nicht optimal ist, , das für jedes . (Denken Sie daran, wir möchten die Kreuzentropie minimieren , damit das optimale das geringste .)θθ1nL(θ)>1nL(θ)1n>0θL(θ)

Ebenso wissen wir, dass der optimale Wert für und der gleiche ist, da eine monoton ansteigende Funktion für , damit wir schreiben können . (Denken Sie daran, wir möchten die Wahrscheinlichkeit maximieren , damit das optimale das meiste .)θlogL(θ)L(θ)log(x)xR+logL(θ)<logL(θ)θL(θ)

Einige Quellen lassen das aus der Kreuzentropie weg. Dies ändert natürlich nur den Wert von , nicht aber den Ort der Optima, so dass aus Sicht der Optimierung die Unterscheidung nicht wichtig ist. Das negative Vorzeichen ist jedoch offensichtlich wichtig, da es den Unterschied zwischen Maximieren und Minimieren darstellt!1nL(θ)

Sycorax sagt Reinstate Monica
quelle