Es gibt einen Unterschied zwischen Wahrscheinlichkeiten und Protokollwahrscheinlichkeiten. Wenn die Wahrscheinlichkeit eines Ereignisses 0,36787944117 beträgt, was zufällig , beträgt die Protokollwahrscheinlichkeit -1.1/e
Wenn Sie also eine Reihe nicht normalisierter Protokollwahrscheinlichkeiten erhalten und die ursprünglichen Wahrscheinlichkeiten wiederherstellen möchten, nehmen Sie zuerst den Exponenten aller Ihrer Zahlen, wodurch Sie nicht normalisierte Wahrscheinlichkeiten erhalten. Als nächstes normalisieren Sie sie wie gewohnt. Mathematisch ist das
pj=ezj∑iezi
Dabei ist die Wahrscheinlichkeit der ten Klasse und die Eingaben in den Softmax-Klassifikator. j z ipjjzi
Die offensichtliche Frage ist, warum man sich die Mühe macht, Exponenten zu machen. Warum nicht verwenden
pj=zj∑izi
stattdessen?
Ein Grund dafür ist, dass der Softmax gut mit dem Kreuzentropieverlust spielt, der , wobei die wahre Verteilung (die Bezeichnungen) ist. Intuitiv wird das Protokoll mit dem Exponenten abgebrochen, was für uns sehr hilfreich ist.q−Eq[logp]q
Es stellt sich heraus , dass , wenn Sie die Steigung der Quer Entropieverlust in Bezug auf die Eingaben in den Sichter nehmen , erhalten Sie
→ p -1jz⃗
p⃗ −1j
wenn das Grundwahrheitslabel in der Klasse und der entsprechende One-Hot-Vektor ist. Dies ist ein sehr schöner Ausdruck und führt zu einer einfachen Interpretation und Optimierung.1 jj1j
Wenn Sie andererseits versuchen, nicht normalisierte Wahrscheinlichkeiten anstelle von nicht normalisierten Protokollwahrscheinlichkeiten zu verwenden, erhalten Sie den Gradienten
1∑izi−1⃗ Tj1z
Dieser Ausdruck ist in Bezug auf die Interpretierbarkeit viel weniger gut und Sie können auch potenzielle numerische Probleme erkennen, wenn nahe 0 liegt.z
Ein weiterer Grund für die Verwendung von Protokollwahrscheinlichkeiten ist die logistische Regression, die lediglich ein Sonderfall der Softmax-Klassifizierung ist. Die Form der Sigmoid-Funktion funktioniert gut, da die Wahrscheinlichkeit von Klassen intuitiv nicht linear mit den Eingaben variiert, wenn Sie sich über den Feature-Space bewegen. Die scharfe Biegung der Sigmoidfunktion, die die scharfe Grenze zwischen zwei Klassen betont, ist wirklich ein Ergebnis des Exponentialterms, den wir auf die Eingaben von Softmax anwenden.