Warum ist der mittlere quadratische Fehler die Kreuzentropie zwischen der empirischen Verteilung und einem Gaußschen Modell?

28

In 5.5, Deep Learning (von Ian Goodfellow, Yoshua Bengio und Aaron Courville) heißt es:

Jeder Verlust, der aus einer negativen logarithmischen Wahrscheinlichkeit besteht, ist eine Kreuzentropie zwischen der empirischen Verteilung, die durch den Trainingssatz definiert ist, und der Wahrscheinlichkeitsverteilung, die durch das Modell definiert ist. Zum Beispiel ist der mittlere quadratische Fehler die Kreuzentropie zwischen der empirischen Verteilung und einem Gaußschen Modell.

Ich kann nicht verstehen, warum sie gleichwertig sind und die Autoren nicht auf den Punkt erweitern.

Mufei Li
quelle

Antworten:

32

Die Daten seien . Schreiben Sie F ( x ) für die empirische Verteilung. Per Definition für jede Funktion f ,x=(x1,,xn)F(x)f

EF(x)[f(X)]=1ni=1nf(xi).

Das Modell habe die Dichte e f ( x ), wobei f auf dem Träger des Modells definiert ist. Die Kreuzentropie von F ( x ) und M ist definiert alsMef(x)fF(x)M

(1)H(F(x),M)=EF(x)[log(ef(X)]=EF(x)[f(X)]=1ni=1nf(xi).

Unter der Annahme, dass eine einfache Zufallsstichprobe ist, ist die Wahrscheinlichkeit eines negativen Logs gleichx

(2)log(L(x))=logi=1nef(xi)=i=1nf(xi)

aufgrund der Eigenschaften von Logarithmen (sie wandeln Produkte in Summen um). Der Ausdruck ist ein konstanter n- facher Ausdruck ( 1 ) . Da Verlustfunktionen in Statistiken nur durch Vergleichen verwendet werden, spielt es keine Rolle, dass eine (positive) Konstante die andere ist. In diesem Sinne ist die negative logarithmische Wahrscheinlichkeit eine Kreuzentropie im Zitat.(2)n(1)


Es erfordert etwas mehr Vorstellungskraft, um die zweite Behauptung des Zitats zu rechtfertigen. Die Verbindung mit dem quadratischen Fehler ist klar, da für ein "Gaußsches Modell", das Werte an Punkten x vorhersagt , der Wert von f an jedem solchen Punkt istp(x)xf

f(x;p,σ)=12(log(2πσ2)+(xp(x))2σ2),

(xp(x))2 1/(2σ2)σσσ

σ=σ(x)

whuber
quelle
1
g()f()F()σ2ki=1n(xip(xi))212log[i=1n(xip(xi))2]+h(k)
Ff
Hallo, ich denke, das gilt nur für die lineare Verteilung. Ich denke, wir können bei nichtlinearen Verteilungsproblemen immer noch MSE als Kostenfunktion verwenden, oder?
Lion Lai
5

Für die Leser des Deep Learning-Buches möchte ich zu der sehr gut akzeptierten Antwort hinzufügen, dass die Autoren ihre Aussage in Abschnitt 5.5.1, nämlich im Beispiel: Lineare Regression als maximale Wahrscheinlichkeit, ausführlich erläutern .

Dort listen sie genau die in der akzeptierten Antwort erwähnte Einschränkung auf:

p(y|x)=N(y;y^(x;w),σ2)y^(x;w)σ2

p(y|x)

Kilian Batzner
quelle