Die Daten seien . Schreiben Sie F ( x ) für die empirische Verteilung. Per Definition für jede Funktion f ,x =( x1, … , Xn)F( x )f
EF( x )[ f( X) ] = 1n∑ich = 1nf( xich) .
Das Modell habe die Dichte e f ( x ), wobei f auf dem Träger des Modells definiert ist. Die Kreuzentropie von F ( x ) und M ist definiert alsMef( x )fF(x)M
H(F(x),M)=−EF(x)[log(ef(X)]=−EF(x)[f(X)]=−1n∑i=1nf(xi).(1)
Unter der Annahme, dass eine einfache Zufallsstichprobe ist, ist die Wahrscheinlichkeit eines negativen Logs gleichx
−log(L(x))=−log∏i=1nef(xi)=−∑i=1nf(xi)(2)
aufgrund der Eigenschaften von Logarithmen (sie wandeln Produkte in Summen um). Der Ausdruck ist ein konstanter n- facher Ausdruck ( 1 ) . Da Verlustfunktionen in Statistiken nur durch Vergleichen verwendet werden, spielt es keine Rolle, dass eine (positive) Konstante die andere ist. In diesem Sinne ist die negative logarithmische Wahrscheinlichkeit eine Kreuzentropie im Zitat.(2)n(1)
Es erfordert etwas mehr Vorstellungskraft, um die zweite Behauptung des Zitats zu rechtfertigen. Die Verbindung mit dem quadratischen Fehler ist klar, da für ein "Gaußsches Modell", das Werte an Punkten x vorhersagt , der Wert von f an jedem solchen Punkt istp(x)xf
f(x;p,σ)=−12(log(2πσ2)+(x−p(x))2σ2),
(x−p(x))2 1/(2σ2)σσσ
σ=σ(x)
Für die Leser des Deep Learning-Buches möchte ich zu der sehr gut akzeptierten Antwort hinzufügen, dass die Autoren ihre Aussage in Abschnitt 5.5.1, nämlich im Beispiel: Lineare Regression als maximale Wahrscheinlichkeit, ausführlich erläutern .
Dort listen sie genau die in der akzeptierten Antwort erwähnte Einschränkung auf:
quelle