Ist es in Ordnung, die Cross-Entropy-Loss-Funktion mit Soft Labels zu verwenden?

Die Antwort lautet ja, aber Sie müssen es richtig definieren.

Die Kreuzentropie wird anhand von Wahrscheinlichkeitsverteilungen definiert, nicht anhand einzelner Werte. Für diskrete Verteilungen und gilt: $p$ $q$

H (p, q) = - \sum_{y} p (y) \log q (y)

$H(p, q) = -\sum_y p(y) \log q(y)$

Wenn der Kreuzentropieverlust mit "harten" Klassenbeschriftungen verwendet wird, bedeutet dies, dass als bedingte empirische Verteilung über Klassenbeschriftungen behandelt wird. Dies ist eine Verteilung, bei der die Wahrscheinlichkeit 1 für das beobachtete Klassenlabel und 0 für alle anderen ist. ist die vom Klassifizierer gelernte bedingte Verteilung (Wahrscheinlichkeit der Klassenbezeichnung bei gegebener Eingabe). Für einen einzelnen beobachteten Datenpunkt mit Eingabe und Klasse können wir sehen, dass sich der obige Ausdruck auf den Standardprotokollverlust reduziert (der über alle Datenpunkte gemittelt würde): $p$ $q$ $x_0$ $y_0$

- \sum_{y} I {y = y_{0}} \log q (y ∣ x_{0}) = - \log q (y_{0} ∣ x_{0})

$-\sum_y I\{y = y_0\} \log q(y \mid x_0) = -\log q(y_0 \mid x_0)$

Hier ist die Indikatorfunktion, die 1 ist, wenn das Argument wahr ist, oder 0, wenn dies anders ist (dies ist, was die empirische Verteilung tut). Die Summe wird über den Satz möglicher Klassenbezeichnungen übernommen. $I\{\cdot\}$

Bei "weichen" Beschriftungen, wie Sie sie erwähnen, handelt es sich bei den Beschriftungen nicht mehr um Klassenidentitäten selbst, sondern um Wahrscheinlichkeiten über zwei mögliche Klassen. Aus diesem Grund können Sie den Standardausdruck nicht für den Protokollverlust verwenden. Das Konzept der Kreuzentropie gilt jedoch weiterhin. In diesem Fall scheint es sogar noch natürlicher zu sein.

Nennen wir die Klasse , die 0 oder 1 sein kann. Nehmen wir an, das Soft Label gibt die Wahrscheinlichkeit an, dass die Klasse 1 ist (bei entsprechender Eingabe ). Das Soft Label definiert also eine Wahrscheinlichkeitsverteilung: $y$ $s(x)$ $x$

p (y ∣ x) = {\begin{array}{cl} s (x) & If y = 1 \\ 1 - s (x) & If y = 0 \end{array}

$p(y \mid x) = \left \{ \begin{array}{cl} s(x) & \text{If } y = 1 \\ 1-s(x) & \text{If } y = 0 \end{array} \right .$

Der Klassifizierer gibt auch eine Verteilung über Klassen an, wenn folgende Eingabe erfolgt:

q (y ∣ x) = {\begin{array}{cl} c (x) & If y = 1 \\ 1 - c (x) & If y = 0 \end{array}

$q(y \mid x) = \left \{ \begin{array}{cl} c(x) & \text{If } y = 1 \\ 1-c(x) & \text{If } y = 0 \end{array} \right .$

Hier ist die geschätzte Wahrscheinlichkeit des Klassifikators, dass die Klasse 1 ist, wenn die Eingabe . $c(x)$ $x$

Die Aufgabe besteht nun darin, anhand der Kreuzentropie zu bestimmen, wie unterschiedlich diese beiden Verteilungen sind. Fügen Sie diese Ausdrücke für und in die obige Definition der Kreuzentropie ein. Die Summe wird über die Menge der möglichen Klassen : $p$ $q$ $\{0, 1\}$

\begin{array}{ccl} H (p, q) & = & - p (y = 0 ∣ x) \log q (y = 0 ∣ x) - p (y = 1 ∣ x) \log q (y = 1 ∣ x) \\ = & - (1 - s (x)) \log (1 - c (x)) - s (x) \log c (x) \end{array}

$\begin{array}{ccl} H(p, q) & = & - p(y=0 \mid x) \log q(y=0 \mid x) - p(y=1 \mid x) \log q(y=1 \mid x)\\ & = & -(1-s(x)) \log (1-c(x)) - s(x) \log c(x) \end{array}$

Das ist der Ausdruck für einen einzelnen beobachteten Datenpunkt. Die Verlustfunktion wäre der Mittelwert über alle Datenpunkte. Dies kann natürlich auch auf die Klassifizierung mehrerer Klassen verallgemeinert werden.

user20160
quelle

Ich komme immer wieder auf die Klarheit dieser Antwort zurück.

Euro

Ist es in Ordnung, die Cross-Entropy-Loss-Funktion mit Soft Labels zu verwenden?

Antworten: